【[114星]MoshiVis：让语音模型“看懂”图像，开启视觉对话新时代。亮点

爱生活爱珂珂 2025-03-25 20:52:27

【[114星]MoshiVis：让语音模型“看懂”图像，开启视觉对话新时代。亮点：1. 基于7B参数的Moshi模型，新增约206M适配器参数，轻松讨论图像；2. 支持PyTorch、Rust、MLX三种后端，灵活部署；3. 提供实时视觉对话能力，低延迟高效率】

'MoshiVis: Teaching Speech Models to Converse about Images'

GitHub: github.com/kyutai-labs/moshivis

视觉语音模型多模态对话实时交互 AI创造营

0 阅读：1

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【The Mean-ing of Loss Functions：深入浅出地解析损

2

【探索大型语言模型的“思维”奥秘：Anthropic 的研究人员通过一种称为 “

3

今日推介(第1724期)：语言模型嵌入的共享整体和局部几何、熵引导多头奖励聚合、

4

早！[太阳] 早安

5

晚安～ [月亮] 晚安

6

今晚19:30，不见不散～

7

晚安～ [月亮] 晚安

8

【[103星]Ling：由InclusionAI开源的MoE（Mixture o

9

【[1.9k星]RuoYi AI：全栈式AI开发平台，让开发者轻松构建个性化AI

10

【[184星]Hyperlight-Wasm：让Wasm模块和组件在轻量级虚拟机

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

2

雷军小米YU7樱花照人家拍车自己买的，雷总拍车自己造的[捂脸哭]太全面了，这么早起

3

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

4

2025年最值得买的手机，你选哪个

5

某搜索已经很久不用了，还有好几个几乎就胎死腹中了。李开复说的可能是对的！

6

MarkGurman：苹果目前没有计划再次推出小屏机型。自从23年9月停产iP

7

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

8

雷军到底投了多少家企业，看看这个版图，不比马斯克小了。

9

【#OpenAI称DeepSeek是另一个华为#：受“国家补贴”、“国家控制”】

10

这玩意AI也能生成？[捂脸哭]

科技最新文章

1

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

2

OPPO首发，天玑9400+处理器后面vivoX200s也用这个芯片

3

MarkGurman：苹果目前没有计划再次推出小屏机型。自从23年9月停产iP

4

苹果CEO库克2025年3月26来到浙江杭州，看这画面就知道是西湖旁边了。当天，

5

雷军回母校遭遇两级反转这可能是他们距离“首富”最近的一次了，羡慕死[哭哭][哭哭]

6

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

7

华为Mate80可能要成为热门手机，据最新信息显示，华为Mate80带着新技术

8

据说华为mate80会采用16：9的屏幕，如果是真的，那真是太好了。大家都知道

9

一加的首款小屏手机一加13T在4月下旬发布，不出意外应该是最便宜的小屏骁龙8E的

10

一加，你是真让我觉得陌生！！一加用户这回真麻了。。。新款一加13T暂定4