4月26日,有相关报道指出,谷歌旗下的DeepMind团队推出了一项名为QuestBench的新基准工具。这一工具旨在通过约束满足问题(CSPs)的框架,评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。
在现实世界的应用场景中,推理任务涵盖了数学、逻辑、规划和编码等多个领域。然而,实际应用往往充满不确定性。例如,用户在提出数学问题时可能会忽略重要细节,而机器人等自主系统则需要在部分信息不可观测的环境中运行。这种理想化完整信息设定与现实中不完全信息问题之间的矛盾,推动了LLMs主动信息获取能力的发展。
据报道,模型在模糊场景中提供准确解决方案的关键在于能够识别信息缺口,并生成针对性的澄清问题。为应对这一挑战,研究者开发了QuestBench基准,专门用于评估LLMs在推理任务中识别缺失信息的能力。QuestBench将问题形式化为约束满足问题(CSPs),特别关注“1-sufficient CSPs”,即只需要知道一个未知变量的值就可以解决目标变量的问题。
QuestBench覆盖了逻辑推理、规划和小学数学三个领域,并根据变量数量、约束数量、搜索深度以及暴力搜索所需猜测次数四个难度维度进行分类,从而精确揭示模型的推理策略和性能瓶颈。
在测试中,QuestBench对包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental在内的多个领先模型进行了评估,测试设置包括零样本、思维链提示和四样本提示。测试时间为2024年6月至2025年3月,涉及288个小学数学问题(GSM-Q)和151个扩展版本的小学数学问题(GSME-Q)。
测试结果显示,思维链提示普遍提升了模型的性能,而在规划任务中,Gemini 2.0 Flash Thinking Experimental表现出色。开源模型在逻辑推理方面具有竞争力,但在复杂数学问题上的表现相对较弱。研究指出,当前模型在简单代数问题上表现良好,但随着问题复杂性的增加,其性能显著下降,这表明在信息缺口识别和澄清能力方面仍有较大的改进空间。