Gemini3.1Flash-Lite：高性能规模化大语言模型

今天，我们正式推出Gemini 3.1 Flash-Lite，这是Gemini 3系列中速度最快、成本效益最高的大语言模型。该模型专为开发者大规模高频次工作负载而构建，在其价格和型号级别上提供了卓越的质量表现。从今天开始，3.1 Flash-Lite将通过Google AI Studio中的Gemini API向开发者进行预览版推出，企业用户可以通过Vertex AI获取服务。高性价比无妥协

3.1 Flash-Lite定价极具竞争力，输入Token价格仅为0.25美元每百万Token，输出Token价格为1.50美元每百万Token，以更大型模型的一小部分成本提供了增强的性能。根据Artificial Analysis基准测试，该模型在保持类似或更好质量的同时，相比2.5 Flash模型，首Token响应速度提升2.5倍，输出速度提升45%。这种低延迟对于高频工作流程至关重要，使其成为开发者构建响应迅速、实时体验的理想模型。在性能方面，3.1 Flash-Lite在Arena.ai排行榜上取得了令人瞩目的1432分Elo评分，在推理和多模态理解基准测试中超越了同等级别的其他模型，在GPQA Diamond上达到86.9%，在MMMU Pro上达到76.8%，甚至超过了上一代较大的Gemini模型如2.5 Flash。开发者规模化自适应智能

除了原始性能表现外，Gemini 3.1 Flash-Lite在AI Studio和Vertex AI中标配了思维层级功能，让开发者能够控制和灵活选择模型对任务的"思考"深度，这对于管理高频工作负载至关重要。3.1 Flash-Lite能够处理大规模任务，如成本优先的大批量翻译和内容审核。同时，它也能处理需要更深入推理的复杂工作负载，如生成用户界面和仪表板、创建模拟或执行指令。在实际应用中，3.1 Flash-Lite能够即时为电商线框图填充数百种不同类别的产品信息。它可以利用实时预报和历史数据生成动态天气仪表板。该模型还能创建具备多步骤任务执行能力的SaaS智能体，为企业提供多样化服务。此外，它能够快速分析和分类大量内容，包括图像处理。 AI Studio和Vertex AI的早期访问开发者，以及Latitude、Cartwheel和Whering等公司，已经开始使用3.1 Flash-Lite大规模解决复杂问题。早期测试者强调了3.1 Flash-Lite的效率和推理能力，称它能够以更大型模型的精度处理复杂输入，同时具备出色的指令遵循能力和一致性保持。我们期待看到您使用3.1 Flash-Lite和Gemini 3系列其他模型构建的精彩应用。