宾大教授Ethan Mollick表示:AI模型的性能还在提升,成本也在持续下降,尚无证据表明这种“双向飞奔”会达到瓶颈。 具体来说: - 性能↑成本↓:从GPT-4(2023年)到现在的Gemini 2.5、o3等新模型,整体趋势是精度越来越高、价格越来越低; - 仔细看图: - 绿色线是“能力前沿”,代表最强模型。Gemini 2.5相比Claude 3 Opus,GPQA分数提升了惊人的181%,成本下降了92%! - 橙色线是“低成本/性能前沿”,代表省钱之选,如Gemini 2.5 Flash Lite在性能不拉垮的情况下,价格压到了0.1美元/百万tokens; - 多个模型超越人类博士:GPQA分数大于0.7被认为接近人类专家水平,现在已有多个模型越过这条线。 GPQA(Google-Proof Q&A)是广泛采用的AI能力评估基准,具有“防作弊”设计:即使开卷考试(允许查资料),人类专家的得分也只有70%-81%。 Mollick指出,虽然所有基准测试都有局限,但趋势已非常明显——AI能力没有放缓迹象,而且运行成本几乎在以数量级下降。 回头看GPT-4,已经是2年前的事了。而今天的AI趋势就是,未来会更聪明,也更便宜。
宾大教授EthanMollick表示:AI模型的性能还在提升,成本也在持续下降
量子位来谈科技
2025-06-19 18:26:36
0
阅读:1