人工智能考试:这是世界上最难的,可能会指向AGI的最初迹象!

探索科技在线 2026-03-06 16:37:49

考试是一个博士级别的基准测试,旨在测试人工智能推理的局限性。尽管谷歌的Gemini 3得分高达48.4%,但专家强调,这并不意味着通用人工智能(AGI)的到来。 一项名为“人类最后一次考试”的新测试旨在衡量当今最强大的人工智能模型与达到或超过人类水平的知识有多接近。人工智能安全和规模中心的研究人员发布了“人类的最后一次考试”,这是一项旨在衡量当今最强大的人工智能(AI)模型在多个领域达到或超过人类水平知识的测试。 测试于2025年1月启动,但科学家们在1月28日发表在《自然》杂志上的一项新研究中首次概述了该框架及其设计背后的想法。它包含100多个主题的2500个问题,来自50个国家500个机构的1000多名主题专家的意见。 研究人员测试了OpenAI的GPT-4o和o1模型、谷歌的Gemini 1.5 Pro、Anthropic的Claude 3.5 Sonnet和DeepSeek R1。OpenAI的o1系统以8.3%的得分位居榜首。尽管表现不佳,研究人员当时写道:“鉴于人工智能发展的快速步伐,到2025年底,模型在HLE上的准确率可能会超过50%。”截至2026年2月12日,谷歌Gemini 3 Deep Think迄今为止的最高得分为48.4%。与此同时,人类专家在各自领域的得分约为90%。 《人类的最后一次考试》被有意设计为对人工智能模型来说极其困难。在早期开发过程中,研究人员在全球范围内呼吁多个领域的主题专家提交意见。

0 阅读:0