[CL]《Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning》A Li, Y Liu, A Sarkar, D Downey... [Yale University & Harvard University] (2025)
科学问题解决中,LLM面临知识提取与复杂推理的双重挑战。最新研究提出了SciReas与SciReas-Pro评测套件,结合KRUX框架,系统揭示知识与推理在科学任务中的作用边界。
• SciReas涵盖多样科学推理任务,SciReas-Pro聚焦更复杂推理,弥补单一基准指标的局限。
• KRUX框架通过提取知识成分(KIs),辅助分析模型推理轨迹,区分知识调用与推理能力。
• 关键发现:LLM从参数中检索任务相关知识是瓶颈;外部知识的上下文加入显著提升推理效果;明确的推理表达有助于激活内隐知识。
• 研究还对比了长链思维(CoT)微调策略,发布了SciLit01,一款8B参数级别的科学推理基线模型。
• 成果及代码开源于github.com/yale-nlp/SciReas-Eval,促进科学AI社区协作与进步。
心得:
1. 科学推理的难点不只是推理流程,知识召回的效率和准确性同样决定成败。
2. 结合上下文知识增强,比单纯提升推理模块更具实用价值。
3. 理解和优化模型“思考路径”的表达,有助于挖掘和利用隐藏知识,突破性能瓶颈。
详见🔗arxiv.org/abs/2508.19202
大语言模型科学推理知识检索机器学习人工智能