Ai应用
Ai资讯
AI生图
AI生视频
开源AI应用平台

首页 > Ai资讯 > Ai产品

Hunyuan-Large-Vision：腾讯混元视觉模型家族中的多模态理解模型

映技派于2025-08-13发布在Ai产品

腾讯推出的 Hunyuan-Large-Vision 是混元视觉模型家族中的多模态理解模型。它采用 MoE 架构，由数十亿参数的原生分辨率混元 ViT 视觉编码器、MLP 连接器模块，以及 389B 参数和 52B 激活参数的 MoE 语言模型组成。支持任意分辨率的图像、视频、3D 空间输入，尤其加强了多语言场景的理解能力，能用于拍照解题、视频通话、视频理解和文案创作等场景。

📚 模型架构

视觉编码器：数十亿参数的原生分辨率混元 ViT 视觉编码器，专为多模态任务优化，支持原生分辨率输入，能从各种尺寸的图片和视频中精准捕捉视觉信息。
MLP 连接器模块：采用自适应下采样机制设计，可高效压缩视觉特征，连接视觉编码器和语言模型。
MoE 语言模型：包含 389B 参数和 52B 激活参数，有很强的多语言理解和推理能力。

📚 性能参数

在国际大模型竞技场 “LMArena Vision 排行榜” 上得 1256 分，排第五，是国内模型里的第一名，性能突出。在 OpenCompass 多模态学术评测集的多个常用学术评测中，平均分 79.5，在视觉推理、视频理解、三维空间理解等复杂任务中表现很好。

📚 功能特点

多模态输入支持：能处理任意分辨率的图像、视频、3D 空间等多种视觉信息。
强大的多语言能力：重点提升了对多语言场景的理解，能准确理解不同语言描述的内容，并做好分析和处理。
技术优势
先进的架构设计：创新的 MoE 架构平衡了计算效率和性能，通过共享专家和专门专家的混合路由策略，提高了训练效率和模型性能。
高质量数据支持：预训练时用了大量高质量多模态数据，包括经特定流程筛选和标注的图像、视频数据，为模型学习提供了丰富素材。

📚 应用场景

拍照解题：用户上传图片后，模型可根据内容解答，比如识别植物、解数学题等。
视频通话：能实时分析视频内容，提供相关信息或互动，比如识别通话双方身份、分析场景等。
视频理解与文案创作：可以总结、分析视频，生成相关文案，还能根据视频内容进行创意创作，比如写视频脚本等。

🌍 体验入口

https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand

收藏

QuantCell：一款智能量化交易系统

上一篇

QuantCell：一款智能量化交易系统

Voost：一个虚拟试穿和试脱工具

下一篇

Voost：一个虚拟试穿和试脱工具

相关文章

HunyuanVideo-Avatar ：腾讯混元推

HunyuanVideo-Avatar ：腾讯混元推

2025-05-29

腾讯元宝浏览器插件上线Chrome应用商店

腾讯元宝浏览器插件上线Chrome应用商店

2025-05-16

PrimitiveAnything：腾讯AIPD和清

PrimitiveAnything：腾讯AIPD和清

2025-05-14

HunyuanCustom：腾讯混元推出并开源的全新

HunyuanCustom：腾讯混元推出并开源的全新

2025-05-09

如何使用腾讯元器创建AI智能体教程指南

如何使用腾讯元器创建AI智能体教程指南

2025-03-23

腾讯元宝如何使用读取并分析复杂Excel表格的功能

腾讯元宝如何使用读取并分析复杂Excel表格的功能

2025-03-22

最新文章

最新工具

ibisPaint

一款绘画应用，它特别受欢迎，因为你可以用它记录绘画过程，还能创作...

TrendRadar

一个以轻量、易部署为目标的热点助手工具，帮助用户告别信息过载，通...

FlyOrDie

一个面向全球玩家的在线游戏平台，提供多种棋类和体育项目。这里有国...

蝉妈妈AI

蝉妈妈新推出的AI助手，结合了六年积累的抖音和快手交易、流量及达...

isPDF

一个能免费在线处理PDF的网站，它最主要的功能是把PDF转成Wo...

Compumuseum

一个面向中文读者的在线计算机博物馆与网页模拟器平台。通过现代We...

Spokeo

美国一个个人信息背景调查网站，它收集社交媒体、电话簿、房地产记录...

巧手打字通

专为打字零基础用户设计的在线练习平台，主打“一起学打字”。这里能...

TheToyMaker

一个免费提供纸艺玩具模板的网站，满是创意与童趣。它免费提供纸艺玩...

DRCOS

一家日本的缝纫图纸纸样库站点，有免费也有付费的，DRCOS网站...

人生若只如初见

用户登录