#英伟达开源长视频推理神器##单台A100也能训长视频模型# 只用一台A100(

量子位 2025-07-14 18:00:08

#英伟达开源长视频推理神器##单台A100也能训长视频模型# 只用一台A100(8GPU),就能提升大模型对长视频理解能力? 英伟达、MIT、港大等机构,提出长视频推理训练框架LongVILA-R1,把强化学习(RL)扩展到了小时级视频。 该框架专为“长视频推理”设计,能处理1小时(3600帧)视频,支持输入画面、字幕、声音一起分析,视频中的来龙去脉、发生了什么事,都能理清。 该研究有三大创新: - 新型数据集LongVideo-Reason:包含5.2万组问答样本,覆盖剧情、时序、空间、目标等四类复杂推理,数据来自1.8万段视频片段,由大模型辅助生成和标注。 - 两阶段训练流程:先用链式思维微调(CoT-SFT)进行基础学习,再接入GRPO策略强化训练,让模型在更具挑战性的样本中持续优化推理策略。 - 优化的训练系统MR-SP:支持最长3600帧(约1小时)的视频输入,在8张A100显卡上完成训练不爆显存,还带来2.1倍训练加速。 实测结果也很亮眼,这个模型在多个视频推理测试里成绩最好,甚至超过了GPT-4o,在空间推理上还追平了Gemini-1.5-Pro。 而且,它在足球、扑克、星际争霸这类复杂场景下的表现,展现出强大的跨时间和叙事建模能力。 目前代码与模型已开源,官方表示这一框架未来可应用于机器人、教育、医疗、AR/VR等领域,成为长时任务中的“大脑中枢”。 感兴趣的小伙伴可以点击:huggingface.co/papers/2507.07966 GitHub:github.com/NVlabs/Long-RL

0 阅读:1
量子位

量子位

关注前沿科技资讯,追踪人工智能动态