【Google DeepMind 宣布推出了 Gemini Robotics 和 Gemini Robotics-ER 两款新型 AI 模型,这些模型基于 Gemini 2.0,标志着一代新的有用机器人的到来。Gemini Robotics 是一个先进的视觉 - 语言 - 行动(VLA)模型,它能够通过多模态理解进行物理操作,适应不同情境,与人类交互,并具有精细的操控能力。Gemini Robotics-ER 则强化了空间理解,使机器人能够更好地执行复杂任务,并且可以与现有的低级控制器连接。这两款模型都显著提高了机器人在现实世界中执行任务的能力,并且在安全性方面也进行了深入研究,包括发布新的数据集来评估和改进嵌入式 AI 和机器人的语义安全性。。亮点:1. 实现多模态交互,能够理解多种语言和指令;2. 在复杂任务中表现出色,如折纸和精细操作,成功率提升2-3倍;3. 支持多种机器人形态,适配从双臂机器人到人形机器人】
'Gemini Robotics brings AI into the physical world'
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/