GPT-4.1系列相比GPT-4o有哪些改进和区别?

Openai 昨晚发布了 GPT4.1 系列,GPT4.1 替代了 4o,性价比超高(在 OpenAI 体系内)。 具备 1M 超长上下文,性能出色,4.1 nano 和 mini 版本价格实惠,适合处理大量长文本任务。 代码能力超越 GPT 4.5,但不及 o1 等推理模型,GPT-4.1 在多个方面相较于 GPT-4o 有明显的提升,以下是他们的主要区别:

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

1. 性能提升

编码能力:

  • GPT-4.1:在 SWE-bench Verified 编码基准测试中得分为 54.6%,比 GPT-4o 提高了 21.4%。

  • GPT-4o:在相同测试中得分为 33.2%。

  • 改进:GPT-4.1 在处理代码仓库、完成任务以及生成可运行并通过测试的代码方面表现出色。

指令遵循:

  • GPT-4.1:在 Scale 的 MultiChallenge 基准测试中得分为 38.3%,比 GPT-4o 提高了 10.5%。

  • GPT-4o:在相同测试中得分为 27.8%。

  • 改进:GPT-4.1 在遵循复杂指令、格式化输出、避免错误行为等方面表现更好。

长文本理解:

  • GPT-4.1:在 Video-MME 长文本理解基准测试中得分为 72.0%,比 GPT-4o 提高了 6.7%。

  • GPT-4o:在相同测试中得分为 65.3%。

  • 改进:GPT-4.1 在处理长视频(无字幕)和长文档时,能够更好地理解和提取关键信息。

2. 上下文窗口

  • GPT-4.1:支持 100 万 token 的上下文窗口,比 GPT-4o 的 12.8 万 token 大幅增加。

  • GPT-4o:支持 12.8 万 token 的上下文窗口。

  • 改进:GPT-4.1 能够处理更大的代码库、多文档任务和长文本,适用于法律、编程、客户支持等多个领域。

3. 模型效率

  • GPT-4.1:在推理效率上有显著提升,延迟更低,成本更低。

  • GPT-4.1 mini:延迟降低了近一半,成本降低了 83%。

  • GPT-4.1 nano:是最快的模型,延迟极低,适用于低延迟需求的任务。

  • GPT-4o:在推理效率上相对较低,尤其是在处理大规模上下文时。

4. 图像理解

  • GPT-4.1:在图像理解方面表现出色,特别是在多模态任务中。

  • GPT-4.1 mini:在 MMMU 图像理解基准测试中得分 72.7%,优于 GPT-4o 的 68.7%。

  • GPT-4o:在图像理解任务中表现较弱。

GPT-4.1系列相比GPT-4o有哪些改进和区别?.webp

5. 成本

  • GPT-4.1:每百万输入 token 收费 $2.00,输出 token 收费 $8.00。

  • GPT-4.1 mini:每百万输入 token 收费 $0.40,输出 token 收费 $1.60。

  • GPT-4.1 nano:每百万输入 token 收费 $0.10,输出 token 收费 $0.40。

  • GPT-4o:每百万输入 token 收费更高,具体未明确,但 GPT-4.1 系列在成本上更具优势。

6. 应用场景

  • GPT-4.1:适用于需要强大计算能力和复杂任务处理的场景,如专业软件开发、法律文档分析、大规模数据处理等。

  • GPT-4.1 mini:适合在资源受限的环境中使用,如普通个人电脑、小型服务器等。

  • GPT-4.1 nano:主要针对移动端和嵌入式设备,适用于对响应速度要求高且资源受限的场景,如快速文本分类、自动补全等。

  • GPT-4o:适合一般用途,但在处理大规模上下文和复杂任务时表现较弱。

更多测试指标请参考 OpenAI 博客:https://openai.com/index/gpt-4-1/。

收藏
最新工具
Tools.Dverso.io
Tools.Dverso.io

一个带洗衣游戏感的在线抠图工具,是个能去掉图片背景的网站,它的特...

Neural4D
Neural4D

一个专注3D动态场景生成与交互的创新平台,核心是用人工智能技术把...

Emergent.sh
Emergent.sh

一个只需一句话就可生成APP应用的开发平台,覆盖从需求规划到最终...

可行旅记
可行旅记

一个AI旅游助手,功能有自动生成旅行计划、查景点/美食/酒店等信...

ASCII2D
ASCII2D

一个专注二次元的在线以图搜图网站,能帮二次元爱好者找图片、查来源...

UXbot
UXbot

一个 主打“想象,即设计”的AI产品设计工具,可帮用户快速把产品...

Workout.cool
Workout.cool

一个免费开源的健身指导平台,拥有全面的锻炼数据库,主要用来帮用户...

UP云搜
UP云搜

强大的聚合网盘资源搜索平台,帮用户搜索和分享各类资源,涵盖考研、...

LabubuWallPaper
LabubuWallPaper

一个专门收集Labubu壁纸的网站,主打“致敬Labubu角色,...

iPhonesWallPapers
iPhonesWallPapers

一个提供iPhone壁纸的网站,有大量高清壁纸,包括iPhone...