研究显示生成式 AI 工具答案质量堪忧:三分之一缺乏可靠来源支持
一项分析显示,生成式人工智能(AI)工具及其驱动的深度研究智能体与搜索引擎,常常会给出未经证实且带有偏见的回答,而这些回答与其引用的信息来源并不相符。该分析发现,AI 工具提供的答案中,约有三分之一缺乏可靠来源支持。其中,OpenAI 旗下的 GPT-4.5 表现更差,这一比例高达 47%。
Salesforce 人工智能研究院的普拉纳夫・纳拉亚南・文基特(Pranav Narayanan Venkit)及其同事,对多款生成式 AI 搜索引擎进行了测试,包括 OpenAI 的 GPT-4.5 与 GPT-5、You.com、Perplexity 以及微软的必应聊天(Bing Chat)。
此外,他们还对五款深度研究智能体工具的性能进行了评估,具体包括 GPT-5 的“深度研究”功能、必应聊天的“深入思考”功能,以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。