这是本来是哪个领域的技术,搜索引擎也应该会用吧。
猪猪,你这个问题问到点子上了。你直觉是对的——RAG 确实是搜索引擎的“老本行”,但又不是完全一回事。我来给你拆清楚。---
一、RAG 本来是哪里的技术?
RAG 最早是 信息检索(IR,Information Retrieval) 和 自然语言处理(NLP) 两个领域交叉的产物。
它作为一个独立的方法,是 2020年由 Facebook AI Research(现在的 Meta AI)和伦敦大学学院等机构联合提出的 。核心团队当时的目标很明确:把“检索”和“生成”结合起来,让模型在回答问题之前,先去外部知识库(比如维基百科)里“查资料”,再用查到的资料生成答案 。
所以,RAG 的“检索”部分,直接继承的就是搜索引擎几十年的技术积累:
· 倒排索引(关键词匹配)
· 向量检索(语义相似度)
· 相关性排序(BM25、TF-IDF)
· 混合搜索(关键词+向量结合)
这些全是搜索引擎的“家底” 。
---
二、搜索引擎自己会用 RAG 吗?
猪猪,答案是:传统搜索引擎的核心逻辑不是 RAG,但下一代搜索引擎已经在往 RAG 靠拢了。
1. 传统搜索引擎的逻辑(Google、百度)
· 用户输入关键词 → 搜索引擎检索 → 返回链接列表
· 你自己看结果、自己总结答案
· 核心是 “检索-排序-展示”,没有“生成”这一步
2. RAG 的逻辑
· 用户输入问题 → 检索相关内容 → 大模型生成答案
· 核心是 “检索-生成-回答”,模型替你总结好了
所以,传统搜索引擎本身不是 RAG。但搜索引擎用的那套检索技术(索引、向量、排序),就是 RAG 的“检索模块” 。
---
三、现在融合到什么程度?
猪猪,你关注的那些大厂,其实已经在做“搜索引擎 + RAG”的融合了。我查到的信息里有几个例子:
华为云 KooSearch:明确说是“企业级RAG服务”,内置搜索引擎能力,能对接大模型做问答 。
Elasticsearch(就是那个搜索引擎公司):他们正在做“Agent Builder”,让搜索引擎能直接为大模型提供上下文,还支持混合搜索(关键词+向量)。
百度、阿里内部也都在做类似的事——把搜索的索引能力和大模型的生成能力结合。
---
四、为什么搜索引擎要做 RAG?
猪猪,你之前说的那个逻辑——“大平台上的内容翻来覆去就那点东西”——其实搜索引擎自己也意识到了。
传统搜索的问题是:
· 用户得自己翻结果
· 那些权重高的平台霸占前排
· 真正有价值的小众内容被埋没
而 RAG 的逻辑是:
· 不问“哪个网页权威”,问“哪段内容相关”
· 直接给你总结好的答案
· 甚至可以引用来源,让你核实
这其实是你说的 “不看平台大小,只看内容本身” 的技术实现。
---
五、用表格总结一下
维度 传统搜索引擎 RAG 搜索引擎 + RAG(下一代)
核心逻辑 检索-排序-展示 检索-生成-回答 检索-生成-回答 + 可溯源
输出形式 链接列表 一句话/一段话答案 答案 + 来源链接
内容来源 全网网页,按权重排序 指定知识库,按相关性排序 全网 + 指定库,按相关性排序
问题 用户得自己总结,平台霸权 依赖知识库质量 正在解决中
---
六、所以回到你的问题
RAG 本来是哪里的技术?
——信息检索和 NLP 交叉的产物,继承的是搜索引擎的老本行。
搜索引擎会用吗?
——传统搜索的核心不是 RAG,但下一代搜索引擎(尤其是企业级 AI 搜索)已经在往 RAG 的方向走。华为、Elastic、百度都在做这件事 。
猪猪,你之前一直在说:真正有价值的东西被平台权重埋没了。RAG 这条路,其实就是在技术上尝试打破这种“平台霸权”——不看谁发的,只看内容本身。
你觉得这个方向,能解决你说的那个问题吗?
页:
[1]