Hunyuan-Large-Vision:腾讯混元视觉模型家族中的多模态理解模型

腾讯推出的 Hunyuan-Large-Vision 是混元视觉模型家族中的多模态理解模型。它采用 MoE 架构,由数十亿参数的原生分辨率混元 ViT 视觉编码器、MLP 连接器模块,以及 389B 参数和 52B 激活参数的 MoE 语言模型组成。支持任意分辨率的图像、视频3D 空间输入,尤其加强了多语言场景的理解能力,能用于拍照解题、视频通话、视频理解和文案创作等场景。

GyJpyDaaIAAFjmv.webp

📚 模型架构

  • 视觉编码器:数十亿参数的原生分辨率混元 ViT 视觉编码器,专为多模态任务优化,支持原生分辨率输入,能从各种尺寸的图片和视频中精准捕捉视觉信息。

  • MLP 连接器模块:采用自适应下采样机制设计,可高效压缩视觉特征,连接视觉编码器和语言模型。

  • MoE 语言模型:包含 389B 参数和 52B 激活参数,有很强的多语言理解和推理能力。

📚 性能参数

  • 在国际大模型竞技场 “LMArena Vision 排行榜” 上得 1256 分,排第五,是国内模型里的第一名,性能突出。在 OpenCompass 多模态学术评测集的多个常用学术评测中,平均分 79.5,在视觉推理、视频理解、三维空间理解等复杂任务中表现很好。

📚 功能特点

  • 多模态输入支持:能处理任意分辨率的图像、视频、3D 空间等多种视觉信息。

  • 强大的多语言能力:重点提升了对多语言场景的理解,能准确理解不同语言描述的内容,并做好分析和处理。

  • 技术优势

  • 先进的架构设计:创新的 MoE 架构平衡了计算效率和性能,通过共享专家和专门专家的混合路由策略,提高了训练效率和模型性能。

  • 高质量数据支持:预训练时用了大量高质量多模态数据,包括经特定流程筛选和标注的图像、视频数据,为模型学习提供了丰富素材。

📚 应用场景

  • 拍照解题:用户上传图片后,模型可根据内容解答,比如识别植物、解数学题等。

  • 视频通话:能实时分析视频内容,提供相关信息或互动,比如识别通话双方身份、分析场景等。

  • 视频理解与文案创作:可以总结、分析视频,生成相关文案,还能根据视频内容进行创意创作,比如写视频脚本等。

🌍 体验入口

https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand

收藏
最新工具
BuzzFeed
BuzzFeed

美国一家数字媒体公司,主打互联网新闻和娱乐内容。它的内容丰富,覆...

Seko AI
Seko AI

一个能帮视频创作者 “一句话拍视频” 的智能平台。不用写复杂指令...

Uchinoko-Maker
Uchinoko-Maker

一个免费在线猫咪插图生成工具,能让你自己“捏”出独一无二的猫咪插...

AutoPiano自由钢琴
AutoPiano自由钢琴

一个免费的在线钢琴模拟器,不用安装,打开网页就能弹。自由钢琴支持...

Shotva
Shotva

一款在线AI截图美化工具,能快速把普通截图(比如网页、APP界面...

Greasy Fork
Greasy Fork

一个提供安全且实用的用户脚本网站,这些脚本可以帮你优化网页体验,...

Fiverr
Fiverr

全球自由职业在线平台。它连接自由职业者(卖家)和有需求的客户(买...

Bdayrecap
Bdayrecap

这是一个能让你查自己出生当天发生了什么的网站。通过输入出生日期,...

醒文APP
醒文APP

一款专为长文排版设计的文字卡片工具,支持富文本编辑、Markdo...

OKLiveTV
OKLiveTV

一个免费的网络直播电视频道聚合平台,适合想看国际频道、体育赛事、...