LiveCC:字节跳动和新加坡国立大学合作开发的能实时解说的视频大语言模型

LiveCC是什么?

LiveCC是字节跳动和新加坡国立大学合作开发的视频大语言模型,能实时解说视频内容。它用自动语音识别(ASR)转录本训练,成本低,效率高。研究人员还开发了新的流训练方法和数据生产管道,构建了Live-CC-5M和Live-WhisperX-526K两个数据集。即使没有经过高质量监督微调,LiveCC-7B-Base模型在视频问答和实时解说上表现也很出色。经过LiveSports-3K基准测试评估,最终的LiveCC-7B-Instruct模型在实时解说质量上超过了72B的先进模型,在VideoMME和OVOBench等视频问答基准测试中也取得了顶尖成绩。

LiveCC核心特点

模型训练方法

  • 创新训练方式:提出一种新颖的视频 - ASR 流训练方法,根据时间戳将 ASR 单词和视频帧紧密交织,符合 ASR 的流特性,使模型能学习时间对齐、细粒度的视觉语言建模。

  • 数据生产与数据集构建:引入数据生产管道处理 YouTube 视频及其字幕(CC,等同于 ASR),构建了用于预训练的Live-CC-5M数据集和用于高质量监督微调(SFT)的Live-WhisperX-526K数据集。

模型训练方法.webp

模型性能

  • LiveCC-7B-Base 模型:即便未进行 SFT,该模型在通用视频问答任务中就展现出有竞争力的性能,还具备实时视频解说的新能力。

  • LiveCC-7B-Instruct 模型:通过精心设计的LiveSports-3K基准测试(使用 LLM 作为评判标准衡量自由形式解说)评估,该模型在实时模式下的解说质量超越先进的 72B 模型(如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。在流行的视频问答基准测试(如 VideoMME 和 OVOBench)中,在 7B/8B 规模上取得了最先进的成果,证明了方法的广泛通用性。

LiveCC应用.webp

LiveCC应用

  • LiveCC 可以广泛应用于视频内容的实时解读、体育赛事的实时评论、教育视频的互动讲解等领域。

常见问题

问:LiveCC 与其他视频大语言模型在训练数据获取上有什么不同?

答:LiveCC 利用廉价的自动语音识别(ASR)转录本进行大规模训练,而其他模型常依赖昂贵的人工注释或专有模型 API(如 GPT-4o),这种差异使LiveCC 在训练数据的成本和规模上更加有优势。

问:Live-CC-5M 和 Live-WhisperX-526K 数据集分别有什么作用?

答:Live-CC-5M 数据集用于模型的预训练,帮助模型学习通用的视觉语言特征和知识;Live-WhisperX-526K 数据集用于高质量监督微调(SFT),使模型在特定任务上表现更好,提升模型的性能。

问:LiveCC-7B-Instruct 模型在实时解说方面超越 72B 模型有什么意义?

答:表明 LiveCC 的训练方法和模型架构有效,能够在较低参数量下实现更高效的实时解说功能,这为视频大语言模型在实时应用场景(如体育赛事直播解说等)的推广提供了更具性价比的解决方案。

相关链接

GitHub 仓库地址:https://github.com/showlab/livecc 

Releases 页面:https://github.com/showlab/livecc/releases 

项目主页:https://showlab.github.io/livecc/ 

论文链接:https://arxiv.org/abs/2504.06885

在线演示:https://huggingface.co/spaces/chenjoya/LiveCC

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...