【[95星]Stream-Omni:像GPT-4o一样的语言-视觉-语音多模态聊天机器人,能同时支持多种模态组合交互。亮点:1. 支持文本、视觉和语音输入,生成文本和语音回应;2. 提供“边听边看”体验,语音交互时实时输出中间文本结果;3. 训练仅需少量多模态数据】
'Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model'
GitHub: github.com/ictnlp/Stream-Omni
多模态交互 语音识别 自然语言处理 人工智能 ai兴趣创作计划