人工智能考试：这是世界上最难的，可能会指向AGI的最初迹象！

考试是一个博士级别的基准测试，旨在测试人工智能推理的局限性。尽管谷歌的Gemini 3得分高达48.4%，但专家强调，这并不意味着通用人工智能（AGI）的到来。一项名为“人类最后一次考试”的新测试旨在衡量当今最强大的人工智能模型与达到或超过人类水平的知识有多接近。人工智能安全和规模中心的研究人员发布了“人类的最后一次考试”，这是一项旨在衡量当今最强大的人工智能（AI）模型在多个领域达到或超过人类水平知识的测试。测试于2025年1月启动，但科学家们在1月28日发表在《自然》杂志上的一项新研究中首次概述了该框架及其设计背后的想法。它包含100多个主题的2500个问题，来自50个国家500个机构的1000多名主题专家的意见。研究人员测试了OpenAI的GPT-4o和o1模型、谷歌的Gemini 1.5 Pro、Anthropic的Claude 3.5 Sonnet和DeepSeek R1。OpenAI的o1系统以8.3%的得分位居榜首。尽管表现不佳，研究人员当时写道：“鉴于人工智能发展的快速步伐，到2025年底，模型在HLE上的准确率可能会超过50%。”截至2026年2月12日，谷歌Gemini 3 Deep Think迄今为止的最高得分为48.4%。与此同时，人类专家在各自领域的得分约为90%。《人类的最后一次考试》被有意设计为对人工智能模型来说极其困难。在早期开发过程中，研究人员在全球范围内呼吁多个领域的主题专家提交意见。

0 阅读：0

人工智能考试：这是世界上最难的，可能会指向AGI的最初迹象！

五角大楼着手利用人工智能工具来破坏中国的电力系统，尤其是人工智能数据中心附近的发

人工智能确实厉害！

说一点大家不爱听的事实，过去一段时间，各种媒体高调吹捧的新能源，人工智能，航空航

三月热门主线：六大核心方向！1.人工智能、AI应用2.通信设备3.化工原

英国《金融时报》曝光一则足以震动全球的重要消息：五角大楼正联合美国顶尖人工智能公

“浙大教授”郑强，再次抛出惊人言论！他说：“中国是人口大国、劳动力大国，人工智能

百度应该是救不回来了！百度的主营业务是搜索，现在被人工智能冲击得一塌糊涂。很