AI 搜索范式(1)
2025 年 6 月 20 日,百度在 arxiv 上发了一篇论文,题目是“Towards AI Search Paradigm”,介绍了 AI 搜索范式。以下内容来自对该论文的研读体会,原论文长达 63 页,容我挑着说,慢慢说,今天是第一部分。
先来结论
毫无疑问,只有比以往的方案好,才值得我们进一步研读该论文。论文的第 7 节给出了比较确凿的评估,来证明所提出的 AI 搜索范式比以往方案(即传统搜索引擎)更好。
所谓确凿,主要有以下几点。
- 双重验证: 评估方法包括人工评估,和线上 A/B 测试。两种方法的评估人群不同,可以互相印证。
-
统计显著性: 除简单查询外,指标提升在统计学上具有显著性(
)。这意味着结果不是偶然的,而是系统性的优势。
- 大量真实数据: 他们用论文方法所实现的系统,部署到线上,并和传统的搜索构成了 A/B 测试,收集到大量的真实数据。
人工评估
评估方法
他们聘请了专业的标注人员进行双盲测试。针对一个查询,会返回两个结果,分别由两个系统生成。标注人员并不知道结果来自哪里,只需要标记哪个结果好,还是不分伯仲。
image-1.png
图中的 NWR 指的是归一化胜率。查询分了简单、中等和复杂三个等级,以便更全面比较两个系统。测试数据也来自真实用户查询的采样数据。
结果说明
- 简单查询:NWR为 0.00%。说明对于简单事实性问题,AI 搜索和传统搜索表现相当。
- 中等复杂度查询:NWR为 +5.00% (且统计上显著)。这证明 AI 搜索开始显现出优势。
- 复杂查询:NWR高达 +13.00% (且统计上显著)。这说明 AI 搜索在处理需要推理、对比、总结的复杂问题时,显著优于传统方案。
线上 A/B 测试
他们将 AI 搜索部署在百度搜索,并且用了 1%的真实线上流量,与传统搜索进行对比,衡量的是对用户“行为”的真实影响。
评估方法
- 线上 A/B 测试,一组用户使用传统搜索,另一组使用 AI 搜索。
- 收集并对比两组用户的核心行为指标。
结果说明
指标 | AI 搜索相对传统搜索的变化 | 数据解读 |
---|---|---|
CQR (查询修改率) | -1.45% | 用户更快地找到了满意答案,无需反复修改、重试查询。这是一个非常积极的信号。 |
PV (页面浏览量) | +1.04% | 用户在结果页上的互动更多,表明内容更具吸引力。 |
DAU (日活跃用户) | +1.85% | 新系统更能吸引和留住用户,提升了产品的粘性。 |
Dwell Time (页面停留时长) | +0.52% | 用户愿意花更多时间消费AI搜索提供的内容,说明内容质量和满意度更高。 |
总结
因此,完全可以说,论文提供了确凿的数据,证明其提出的 AI 搜索范式在处理中等及以上复杂度的查询时,无论是在答案质量还是在用户满意度上,都显著优于以往的传统搜索引擎方案。
(具体怎么实现,我们下回分解。)
大家好,我是自在哪吒的创始人、首席服务官 Kafka。让我们一起进化吧。