【[95星]Stream-Omni:像GPT-4o一样的语言-视觉-语音多模态聊

爱生活爱珂珂 2025-06-19 22:24:38

【[95星]Stream-Omni:像GPT-4o一样的语言-视觉-语音多模态聊天机器人,能同时支持多种模态组合交互。亮点:1. 支持文本、视觉和语音输入,生成文本和语音回应;2. 提供“边听边看”体验,语音交互时实时输出中间文本结果;3. 训练仅需少量多模态数据】

'Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model'

GitHub: github.com/ictnlp/Stream-Omni

多模态交互 语音识别 自然语言处理 人工智能 ai兴趣创作计划

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注