问:宝玉老师,我想请教个rag的问题。我们想通过收集时事新闻报道编写分析报告,如果采用RAG方案对新闻进行处理,数据量提供多大出来的报告比较合适,亦或者这个需求有什么别的更好的处理方案吗
答:
通常在考虑使用 AI 解决问题时,我的第一个建议是先不要考虑 RAG 这些因素,而是回归聚焦到问题本身,搞清楚要解决什么问题,然后再看要不要使用 AI 的方案,以及怎么使用 AI 的方案。
就拿这个问题来说,根本需求是:“收集时事新闻报道编写分析报告”。如果这个任务没有 AI 的时候我们怎么做?
我能想到的做法可能是这样的,要写一个某个话题的分析报告,根据这个话题去找相关的时事新闻报道,从中挑出几篇最相关的质量最好的,基于它们去分析去撰写报告。
这里面有两个核心的子任务:
1. 根据主题去检索和排序
2. 根据检索和筛选出来的内容去生成报告。
这两点恰恰是 RAG 要解决的问题,检索、排序和生成。
那么回到原始的问题,这个需求是不是就要用 RAG 呢?数据量提供多大出来的报告比较合适?
我的建议是:
1. 不一定要用 RAG,可以用 RAG 结合传统搜索工具
2. 数据量多大比较合适取决于模型
3. AI 生成时,输入内容和生成结果最好都有专业人士辅助
虽然 RAG 是要解决检索、排序和生成的问题,但现实是工程难度很高,实际效果并不算非常理想,难点在于:
1. 如何检索出真正相关的内容,并且摘录出最相关的部分
2. 上下文窗口长度有限,只能提供一部分内容作为上下文给大语言模型处理,但是选择哪些内容是很有挑战的。
就我对大语言模型的了解,现在无论是在检索排序,还是在生成,AI 的结果都不能稳定的超过专业人士的水平,但如果专业人士借助 AI,是可以做到效率高质量也稳定的。
所以这个任务,现阶段想完全基于 RAG 实现自动化检索生成,也不是不可以,但是要接受质量不稳定。
如果想要质量好,就要有经验的人工介入,帮助 AI 去检索和排序、找出最相关最有价值的内容传给大模型的内容去生成,对于生成的结果再去审查和完善。另外要用好的模型。
点击图片查看原图