GPT-4.1系列相比GPT-4o有哪些改进和区别?

Openai 昨晚发布了 GPT4.1 系列,GPT4.1 替代了 4o,性价比超高(在 OpenAI 体系内)。 具备 1M 超长上下文,性能出色,4.1 nano 和 mini 版本价格实惠,适合处理大量长文本任务。 代码能力超越 GPT 4.5,但不及 o1 等推理模型,GPT-4.1 在多个方面相较于 GPT-4o 有明显的提升,以下是他们的主要区别:

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

1. 性能提升

编码能力:

  • GPT-4.1:在 SWE-bench Verified 编码基准测试中得分为 54.6%,比 GPT-4o 提高了 21.4%。

  • GPT-4o:在相同测试中得分为 33.2%。

  • 改进:GPT-4.1 在处理代码仓库、完成任务以及生成可运行并通过测试的代码方面表现出色。

指令遵循:

  • GPT-4.1:在 Scale 的 MultiChallenge 基准测试中得分为 38.3%,比 GPT-4o 提高了 10.5%。

  • GPT-4o:在相同测试中得分为 27.8%。

  • 改进:GPT-4.1 在遵循复杂指令、格式化输出、避免错误行为等方面表现更好。

长文本理解:

  • GPT-4.1:在 Video-MME 长文本理解基准测试中得分为 72.0%,比 GPT-4o 提高了 6.7%。

  • GPT-4o:在相同测试中得分为 65.3%。

  • 改进:GPT-4.1 在处理长视频(无字幕)和长文档时,能够更好地理解和提取关键信息。

2. 上下文窗口

  • GPT-4.1:支持 100 万 token 的上下文窗口,比 GPT-4o 的 12.8 万 token 大幅增加。

  • GPT-4o:支持 12.8 万 token 的上下文窗口。

  • 改进:GPT-4.1 能够处理更大的代码库、多文档任务和长文本,适用于法律、编程、客户支持等多个领域。

3. 模型效率

  • GPT-4.1:在推理效率上有显著提升,延迟更低,成本更低。

  • GPT-4.1 mini:延迟降低了近一半,成本降低了 83%。

  • GPT-4.1 nano:是最快的模型,延迟极低,适用于低延迟需求的任务。

  • GPT-4o:在推理效率上相对较低,尤其是在处理大规模上下文时。

4. 图像理解

  • GPT-4.1:在图像理解方面表现出色,特别是在多模态任务中。

  • GPT-4.1 mini:在 MMMU 图像理解基准测试中得分 72.7%,优于 GPT-4o 的 68.7%。

  • GPT-4o:在图像理解任务中表现较弱。

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

5. 成本

  • GPT-4.1:每百万输入 token 收费 $2.00,输出 token 收费 $8.00。

  • GPT-4.1 mini:每百万输入 token 收费 $0.40,输出 token 收费 $1.60。

  • GPT-4.1 nano:每百万输入 token 收费 $0.10,输出 token 收费 $0.40。

  • GPT-4o:每百万输入 token 收费更高,具体未明确,但 GPT-4.1 系列在成本上更具优势。

6. 应用场景

  • GPT-4.1:适用于需要强大计算能力和复杂任务处理的场景,如专业软件开发、法律文档分析、大规模数据处理等。

  • GPT-4.1 mini:适合在资源受限的环境中使用,如普通个人电脑、小型服务器等。

  • GPT-4.1 nano:主要针对移动端和嵌入式设备,适用于对响应速度要求高且资源受限的场景,如快速文本分类、自动补全等。

  • GPT-4o:适合一般用途,但在处理大规模上下文和复杂任务时表现较弱。

更多测试指标请参考 OpenAI 博客:https://openai.com/index/gpt-4-1/。

收藏
最新工具
暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...

美团NoCode
美团NoCode

美团推出的一款对话式AI编程智能体产品,是一款不需要编程背景和经...