GPT-4.1系列相比GPT-4o有哪些改进和区别?

Openai 昨晚发布了 GPT4.1 系列,GPT4.1 替代了 4o,性价比超高(在 OpenAI 体系内)。 具备 1M 超长上下文,性能出色,4.1 nano 和 mini 版本价格实惠,适合处理大量长文本任务。 代码能力超越 GPT 4.5,但不及 o1 等推理模型,GPT-4.1 在多个方面相较于 GPT-4o 有明显的提升,以下是他们的主要区别:

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

1. 性能提升

编码能力:

  • GPT-4.1:在 SWE-bench Verified 编码基准测试中得分为 54.6%,比 GPT-4o 提高了 21.4%。

  • GPT-4o:在相同测试中得分为 33.2%。

  • 改进:GPT-4.1 在处理代码仓库、完成任务以及生成可运行并通过测试的代码方面表现出色。

指令遵循:

  • GPT-4.1:在 Scale 的 MultiChallenge 基准测试中得分为 38.3%,比 GPT-4o 提高了 10.5%。

  • GPT-4o:在相同测试中得分为 27.8%。

  • 改进:GPT-4.1 在遵循复杂指令、格式化输出、避免错误行为等方面表现更好。

长文本理解:

  • GPT-4.1:在 Video-MME 长文本理解基准测试中得分为 72.0%,比 GPT-4o 提高了 6.7%。

  • GPT-4o:在相同测试中得分为 65.3%。

  • 改进:GPT-4.1 在处理长视频(无字幕)和长文档时,能够更好地理解和提取关键信息。

2. 上下文窗口

  • GPT-4.1:支持 100 万 token 的上下文窗口,比 GPT-4o 的 12.8 万 token 大幅增加。

  • GPT-4o:支持 12.8 万 token 的上下文窗口。

  • 改进:GPT-4.1 能够处理更大的代码库、多文档任务和长文本,适用于法律、编程、客户支持等多个领域。

3. 模型效率

  • GPT-4.1:在推理效率上有显著提升,延迟更低,成本更低。

  • GPT-4.1 mini:延迟降低了近一半,成本降低了 83%。

  • GPT-4.1 nano:是最快的模型,延迟极低,适用于低延迟需求的任务。

  • GPT-4o:在推理效率上相对较低,尤其是在处理大规模上下文时。

4. 图像理解

  • GPT-4.1:在图像理解方面表现出色,特别是在多模态任务中。

  • GPT-4.1 mini:在 MMMU 图像理解基准测试中得分 72.7%,优于 GPT-4o 的 68.7%。

  • GPT-4o:在图像理解任务中表现较弱。

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

5. 成本

  • GPT-4.1:每百万输入 token 收费 $2.00,输出 token 收费 $8.00。

  • GPT-4.1 mini:每百万输入 token 收费 $0.40,输出 token 收费 $1.60。

  • GPT-4.1 nano:每百万输入 token 收费 $0.10,输出 token 收费 $0.40。

  • GPT-4o:每百万输入 token 收费更高,具体未明确,但 GPT-4.1 系列在成本上更具优势。

6. 应用场景

  • GPT-4.1:适用于需要强大计算能力和复杂任务处理的场景,如专业软件开发、法律文档分析、大规模数据处理等。

  • GPT-4.1 mini:适合在资源受限的环境中使用,如普通个人电脑、小型服务器等。

  • GPT-4.1 nano:主要针对移动端和嵌入式设备,适用于对响应速度要求高且资源受限的场景,如快速文本分类、自动补全等。

  • GPT-4o:适合一般用途,但在处理大规模上下文和复杂任务时表现较弱。

更多测试指标请参考 OpenAI 博客:https://openai.com/index/gpt-4-1/。

收藏
最新工具
Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...

FotoForensics
FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要...

PixPin
PixPin

一款功能强大、完全免费的截图、贴图工具,具备高效截图、图片标注、...