Gemini3.1Flash-Lite:高性能规模化大语言模型

探索科技在线 2026-03-05 17:06:18

今天,我们正式推出Gemini 3.1 Flash-Lite,这是Gemini 3系列中速度最快、成本效益最高的大语言模型。该模型专为开发者大规模高频次工作负载而构建,在其价格和型号级别上提供了卓越的质量表现。 从今天开始,3.1 Flash-Lite将通过Google AI Studio中的Gemini API向开发者进行预览版推出,企业用户可以通过Vertex AI获取服务。 高性价比无妥协

3.1 Flash-Lite定价极具竞争力,输入Token价格仅为0.25美元每百万Token,输出Token价格为1.50美元每百万Token,以更大型模型的一小部分成本提供了增强的性能。根据Artificial Analysis基准测试,该模型在保持类似或更好质量的同时,相比2.5 Flash模型,首Token响应速度提升2.5倍,输出速度提升45%。这种低延迟对于高频工作流程至关重要,使其成为开发者构建响应迅速、实时体验的理想模型。 在性能方面,3.1 Flash-Lite在Arena.ai排行榜上取得了令人瞩目的1432分Elo评分,在推理和多模态理解基准测试中超越了同等级别的其他模型,在GPQA Diamond上达到86.9%,在MMMU Pro上达到76.8%,甚至超过了上一代较大的Gemini模型如2.5 Flash。 开发者规模化自适应智能

除了原始性能表现外,Gemini 3.1 Flash-Lite在AI Studio和Vertex AI中标配了思维层级功能,让开发者能够控制和灵活选择模型对任务的"思考"深度,这对于管理高频工作负载至关重要。3.1 Flash-Lite能够处理大规模任务,如成本优先的大批量翻译和内容审核。同时,它也能处理需要更深入推理的复杂工作负载,如生成用户界面和仪表板、创建模拟或执行指令。 在实际应用中,3.1 Flash-Lite能够即时为电商线框图填充数百种不同类别的产品信息。它可以利用实时预报和历史数据生成动态天气仪表板。该模型还能创建具备多步骤任务执行能力的SaaS智能体,为企业提供多样化服务。此外,它能够快速分析和分类大量内容,包括图像处理。 AI Studio和Vertex AI的早期访问开发者,以及Latitude、Cartwheel和Whering等公司,已经开始使用3.1 Flash-Lite大规模解决复杂问题。早期测试者强调了3.1 Flash-Lite的效率和推理能力,称它能够以更大型模型的精度处理复杂输入,同时具备出色的指令遵循能力和一致性保持。 我们期待看到您使用3.1 Flash-Lite和Gemini 3系列其他模型构建的精彩应用。

0 阅读:8
探索科技在线

探索科技在线

每天定时更新作品,感谢欣赏