全开源端到端共情语言大模型低成本构建共情语音系统GPT-4o、Gemini这些顶

量子位看科技 2025-07-16 12:40:24

全开源端到端共情语言大模型低成本构建共情语音系统

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。

现在,紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。

OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。

它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。

最为重要的是,团队开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集、数据构建代码、模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

详情请查看文章👇

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注