GPT-4.1系列相比GPT-4o有哪些改进和区别?

Openai 昨晚发布了 GPT4.1 系列,GPT4.1 替代了 4o,性价比超高(在 OpenAI 体系内)。 具备 1M 超长上下文,性能出色,4.1 nano 和 mini 版本价格实惠,适合处理大量长文本任务。 代码能力超越 GPT 4.5,但不及 o1 等推理模型,GPT-4.1 在多个方面相较于 GPT-4o 有明显的提升,以下是他们的主要区别:

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

1. 性能提升

编码能力:

  • GPT-4.1:在 SWE-bench Verified 编码基准测试中得分为 54.6%,比 GPT-4o 提高了 21.4%。

  • GPT-4o:在相同测试中得分为 33.2%。

  • 改进:GPT-4.1 在处理代码仓库、完成任务以及生成可运行并通过测试的代码方面表现出色。

指令遵循:

  • GPT-4.1:在 Scale 的 MultiChallenge 基准测试中得分为 38.3%,比 GPT-4o 提高了 10.5%。

  • GPT-4o:在相同测试中得分为 27.8%。

  • 改进:GPT-4.1 在遵循复杂指令、格式化输出、避免错误行为等方面表现更好。

长文本理解:

  • GPT-4.1:在 Video-MME 长文本理解基准测试中得分为 72.0%,比 GPT-4o 提高了 6.7%。

  • GPT-4o:在相同测试中得分为 65.3%。

  • 改进:GPT-4.1 在处理长视频(无字幕)和长文档时,能够更好地理解和提取关键信息。

2. 上下文窗口

  • GPT-4.1:支持 100 万 token 的上下文窗口,比 GPT-4o 的 12.8 万 token 大幅增加。

  • GPT-4o:支持 12.8 万 token 的上下文窗口。

  • 改进:GPT-4.1 能够处理更大的代码库、多文档任务和长文本,适用于法律、编程、客户支持等多个领域。

3. 模型效率

  • GPT-4.1:在推理效率上有显著提升,延迟更低,成本更低。

  • GPT-4.1 mini:延迟降低了近一半,成本降低了 83%。

  • GPT-4.1 nano:是最快的模型,延迟极低,适用于低延迟需求的任务。

  • GPT-4o:在推理效率上相对较低,尤其是在处理大规模上下文时。

4. 图像理解

  • GPT-4.1:在图像理解方面表现出色,特别是在多模态任务中。

  • GPT-4.1 mini:在 MMMU 图像理解基准测试中得分 72.7%,优于 GPT-4o 的 68.7%。

  • GPT-4o:在图像理解任务中表现较弱。

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

5. 成本

  • GPT-4.1:每百万输入 token 收费 $2.00,输出 token 收费 $8.00。

  • GPT-4.1 mini:每百万输入 token 收费 $0.40,输出 token 收费 $1.60。

  • GPT-4.1 nano:每百万输入 token 收费 $0.10,输出 token 收费 $0.40。

  • GPT-4o:每百万输入 token 收费更高,具体未明确,但 GPT-4.1 系列在成本上更具优势。

6. 应用场景

  • GPT-4.1:适用于需要强大计算能力和复杂任务处理的场景,如专业软件开发、法律文档分析、大规模数据处理等。

  • GPT-4.1 mini:适合在资源受限的环境中使用,如普通个人电脑、小型服务器等。

  • GPT-4.1 nano:主要针对移动端和嵌入式设备,适用于对响应速度要求高且资源受限的场景,如快速文本分类、自动补全等。

  • GPT-4o:适合一般用途,但在处理大规模上下文和复杂任务时表现较弱。

更多测试指标请参考 OpenAI 博客:https://openai.com/index/gpt-4-1/。

收藏
最新工具
PPT制作鱼
PPT制作鱼

一个AI驱动的PPT制作平台,主要功能包括输入主题、文档或大纲即...

AiPose AI
AiPose AI

一个全能型AI图像与视频创作平台,支持用文字生成图片、文字生成视...

TheUselessWeb
TheUselessWeb

澳大利亚开发者Tim Holman做的网站,它的核心功能是点一下...

Shell Shockers
Shell Shockers

一款多人在线的第一人称射击游戏,玩家操控各种“武装鸡蛋”在竞技场...

Sheet0
Sheet0

一个L4级 Data Agent工具,用户只需输入需求指令,系统...

DrFonts
DrFonts

一个AI字体生成工具,它能把手写的PNG图片,比如纸上的字稿,自...

Coding Adventure
Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh
Vert.sh

一款完全免费、开源的文件转换工具,支持图片、音频、文档的本地处理...

Windrecorder
Windrecorder

捕风记录仪,一款开源的屏幕录制与检索工具,它记录屏幕内容来实现记...

Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...