微软推出了两款新模型:Phi-4-Multimodal多模态模型和Phi-4-Mini文本模型

微软近期推出了两款新模型,分别是Phi-4-Multimodal和Phi-4-Mini。

这两款模型虽然设计得比较小巧,但功能可不容小觑。Phi-4-Multimodal是微软首个多模态模型,它能把语音、视觉和文本处理等功能集成在一起,参数量有56亿。Phi-4-Mini则专注于文本任务,参数量为3.8亿。这两款模型都着重优化了在设备端以及边缘计算平台下的性能,能有效降低计算成本和延迟。

微软推出了两款新模型:Phi-4-Multimodal多模态型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款参数为5.6亿的多模态模型,主要负责处理文本、视觉以及语音/音频数据。它运用了一种叫LoRA(Low-Rank Adaptation)的创新技术,再搭配上特定模态的路由器,这样就能在不扩大模型整体规模的前提下,很好地处理和推理多种模态的数据。

技术特点

Phi-4-Multimodal使用了SigLIP - 400M图像编码器和MLP投影器,能让视觉信息与文本的表示空间相匹配。而且它还有动态多裁剪策略,不管是什么分辨率的图像,都能处理得很不错。在语音相关任务里,虽然语音/音频模态的LoRA组件规模不大,但在OpenASR排行榜上,它的词错误率(WER)达到了6.14%,排名第一,可见它在自动语音识别上的表现相当出色。

功能特点

  • 多模态处理能力:Phi-4-Multimodal是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达56亿。它能够处理多种类型的数据,例如文本、图像、语音等,并将这些不同模态的信息融合起来,挖掘其中的关联信息。

  • 语音处理:在自动语音识别(ASR)和语音翻译(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等专业语音模型,表现优异。

  • 视觉处理:在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等任务中,Phi-4-Multimodal与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本处理:在文本推理、数学计算、编程、指令遵循和函数调用等任务中,Phi-4-Multimodal表现出色。

应用领域

Phi-4-Multimodal不光在视觉和语音任务中表现出色,在语音问答、文档理解、光学字符识别以及科学推理等方面也很有竞争力。不过在一些知识密集型的问答上,它和更大规模的模型相比,可能稍微差一点。

  • 智能助手领域:在智能家居控制方面,Phi-4-Multimodal可以根据用户的语音指令和室内摄像头拍摄的画面,更精准地执行任务。

  • 教育领域:对于在线教育中的多媒体学习资料,Phi-4-Multimodal可以分析视频中的图像、讲解音频对应的文本等,为学生提供更全面的学习辅助。

微软推出了两款新模型:Phi-4-Multimodal多模态型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款专门针对文本任务设计的高效模型,有3.8亿参数。它在语言理解和生成任务上的表现,比它的参数规模所预期的要好很多,甚至在某些方面能和更大的模型相提并论。

技术特点

Phi-4-Mini采用了32层Transformer结构,隐藏状态大小设定为3,072,还引入了Group Query Attention(GQA)机制,这样就能更好地处理长上下文信息。另外,分数RoPE维度的运用,也让它在处理长序列时效率更高。

功能特点

轻量化设计:Phi-4-Mini模型专注于文本任务,参数量为38亿。它采用了分组查询注意力机制(GQA)和输入/输出嵌入绑定技术,优化了长上下文生成时的资源利用。

高效文本处理:在文本推理、数学计算、编程、指令遵循和函数调用等任务中,Phi-4-Mini表现优异,超越了多款流行的大型语言模型。

应用场景

移动应用:在手机APP中,Phi-4-Mini可以为用户提供便捷的语言交互服务,快速回答关于景点信息、当地交通等问题。

物联网设备:对于智能音箱等物联网设备,Phi-4-Mini可以在本地设备上进行一些简单的语音交互处理,减少对云端的依赖,提高响应速度和保护用户隐私

性能表现

Phi-4-Mini虽然规模不大,但在推理、数学、编程等任务上,比同类的大型模型表现还要好,充分证明了它在特定任务上的高效性和准确性。

模型下载:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...