LiveCC:字节跳动和新加坡国立大学合作开发的能实时解说的视频大语言模型

LiveCC是什么?

LiveCC是字节跳动和新加坡国立大学合作开发的视频大语言模型,能实时解说视频内容。它用自动语音识别(ASR)转录本训练,成本低,效率高。研究人员还开发了新的流训练方法和数据生产管道,构建了Live-CC-5M和Live-WhisperX-526K两个数据集。即使没有经过高质量监督微调,LiveCC-7B-Base模型在视频问答和实时解说上表现也很出色。经过LiveSports-3K基准测试评估,最终的LiveCC-7B-Instruct模型在实时解说质量上超过了72B的先进模型,在VideoMME和OVOBench等视频问答基准测试中也取得了顶尖成绩。

LiveCC核心特点

模型训练方法

  • 创新训练方式:提出一种新颖的视频 - ASR 流训练方法,根据时间戳将 ASR 单词和视频帧紧密交织,符合 ASR 的流特性,使模型能学习时间对齐、细粒度的视觉语言建模。

  • 数据生产与数据集构建:引入数据生产管道处理 YouTube 视频及其字幕(CC,等同于 ASR),构建了用于预训练的Live-CC-5M数据集和用于高质量监督微调(SFT)的Live-WhisperX-526K数据集。

模型训练方法.webp

模型性能

  • LiveCC-7B-Base 模型:即便未进行 SFT,该模型在通用视频问答任务中就展现出有竞争力的性能,还具备实时视频解说的新能力。

  • LiveCC-7B-Instruct 模型:通过精心设计的LiveSports-3K基准测试(使用 LLM 作为评判标准衡量自由形式解说)评估,该模型在实时模式下的解说质量超越先进的 72B 模型(如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。在流行的视频问答基准测试(如 VideoMME 和 OVOBench)中,在 7B/8B 规模上取得了最先进的成果,证明了方法的广泛通用性。

LiveCC应用.webp

LiveCC应用

  • LiveCC 可以广泛应用于视频内容的实时解读、体育赛事的实时评论、教育视频的互动讲解等领域。

常见问题

问:LiveCC 与其他视频大语言模型在训练数据获取上有什么不同?

答:LiveCC 利用廉价的自动语音识别(ASR)转录本进行大规模训练,而其他模型常依赖昂贵的人工注释或专有模型 API(如 GPT-4o),这种差异使LiveCC 在训练数据的成本和规模上更加有优势。

问:Live-CC-5M 和 Live-WhisperX-526K 数据集分别有什么作用?

答:Live-CC-5M 数据集用于模型的预训练,帮助模型学习通用的视觉语言特征和知识;Live-WhisperX-526K 数据集用于高质量监督微调(SFT),使模型在特定任务上表现更好,提升模型的性能。

问:LiveCC-7B-Instruct 模型在实时解说方面超越 72B 模型有什么意义?

答:表明 LiveCC 的训练方法和模型架构有效,能够在较低参数量下实现更高效的实时解说功能,这为视频大语言模型在实时应用场景(如体育赛事直播解说等)的推广提供了更具性价比的解决方案。

相关链接

GitHub 仓库地址:https://github.com/showlab/livecc 

Releases 页面:https://github.com/showlab/livecc/releases 

项目主页:https://showlab.github.io/livecc/ 

论文链接:https://arxiv.org/abs/2504.06885

在线演示:https://huggingface.co/spaces/chenjoya/LiveCC

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...