2025-06-25:学习

AI 搜索范式(1)

2025 年 6 月 20 日,百度在 arxiv 上发了一篇论文,题目是“Towards AI Search Paradigm”,介绍了 AI 搜索范式。以下内容来自对该论文的研读体会,原论文长达 63 页,容我挑着说,慢慢说,今天是第一部分。

先来结论

毫无疑问,只有比以往的方案好,才值得我们进一步研读该论文。论文的第 7 节给出了比较确凿的评估,来证明所提出的 AI 搜索范式比以往方案(即传统搜索引擎)更好。

所谓确凿,主要有以下几点。

  1. 双重验证: 评估方法包括人工评估,和线上 A/B 测试。两种方法的评估人群不同,可以互相印证。
  2. 统计显著性: 除简单查询外,指标提升在统计学上具有显著性(p<0.05)。这意味着结果不是偶然的,而是系统性的优势。
  3. 大量真实数据: 他们用论文方法所实现的系统,部署到线上,并和传统的搜索构成了 A/B 测试,收集到大量的真实数据。

人工评估

评估方法

他们聘请了专业的标注人员进行双盲测试。针对一个查询,会返回两个结果,分别由两个系统生成。标注人员并不知道结果来自哪里,只需要标记哪个结果好,还是不分伯仲。

image-1.png

图中的 NWR 指的是归一化胜率。查询分了简单、中等和复杂三个等级,以便更全面比较两个系统。测试数据也来自真实用户查询的采样数据。

结果说明

  1. 简单查询:NWR为 0.00%。说明对于简单事实性问题,AI 搜索和传统搜索表现相当。
  2. 中等复杂度查询:NWR为 +5.00% (且统计上显著)。这证明 AI 搜索开始显现出优势。
  3. 复杂查询:NWR高达 +13.00% (且统计上显著)。这说明 AI 搜索在处理需要推理、对比、总结的复杂问题时,显著优于传统方案。

线上 A/B 测试

他们将 AI 搜索部署在百度搜索,并且用了 1%的真实线上流量,与传统搜索进行对比,衡量的是对用户“行为”的真实影响。

评估方法

  1. 线上 A/B 测试,一组用户使用传统搜索,另一组使用 AI 搜索。
  2. 收集并对比两组用户的核心行为指标。

结果说明

指标 AI 搜索相对传统搜索的变化 数据解读
CQR (查询修改率) -1.45% 用户更快地找到了满意答案,无需反复修改、重试查询。这是一个非常积极的信号。
PV (页面浏览量) +1.04% 用户在结果页上的互动更多,表明内容更具吸引力。
DAU (日活跃用户) +1.85% 新系统更能吸引和留住用户,提升了产品的粘性。
Dwell Time (页面停留时长) +0.52% 用户愿意花更多时间消费AI搜索提供的内容,说明内容质量和满意度更高。

总结

因此,完全可以说,论文提供了确凿的数据,证明其提出的 AI 搜索范式在处理中等及以上复杂度的查询时,无论是在答案质量还是在用户满意度上,都显著优于以往的传统搜索引擎方案。

(具体怎么实现,我们下回分解。)


大家好,我是自在哪吒的创始人、首席服务官 Kafka。让我们一起进化吧。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容