【[114星]MoshiVis:让语音模型“看懂”图像,开启视觉对话新时代。亮点:1. 基于7B参数的Moshi模型,新增约206M适配器参数,轻松讨论图像;2. 支持PyTorch、Rust、MLX三种后端,灵活部署;3. 提供实时视觉对话能力,低延迟高效率】
'MoshiVis: Teaching Speech Models to Converse about Images'
GitHub: github.com/kyutai-labs/moshivis
视觉语音模型 多模态对话 实时交互 AI创造营