GPT-4.5与GPT-4o相比,有哪些特点变化或提升?

北京时间凌晨4点钟Openai举行一个14分钟左右的直播活动,发布最新大模型GPT-4.5,OpenAI在新闻稿中表示,这是公司有史以来最大、最好的聊天模型,在计算效率上较GPT-4提升超过10倍,我们看看,同GPT-4o相比较,具体有哪些改变和提升。

GPT-4.5发布.webp

GPT-4.5与GPT-4o相比较有哪些变化?

  • 在知识准确性和幻觉率方面:GPT - 4.5在AIME2024基准测试里得了36.7%,GPT - 4o才9.3%,可见GPT - 4.5知识准确性提升很大。像“人类的第一种语言是什么”这种问题,GPT - 4.5会诚实说这是未解之谜,幻觉答案减少了。

  • 世界知识和理解上:GPT - 4.5通过多种优化有了更广知识和更深理解能力,不再乱说了,可靠性提高。

  • 人类偏好与对话能力:人类偏好测试里GPT - 4.5更受欢迎。它能更好理解人类想法,情商更高地对话,对微妙线索和隐含期望把握更细腻,审美直觉和创造力更强。

  • 技术进步方面:GPT - 4.5有新的可扩展技术,能用小模型数据训练出强大模型,可引导性、细节理解和自然对话能力都提升了。

  • 推理与应用能力:GPT - 4.5虽不是专门的推理模型,但简单有挑战的知识问题能回答得不错,代码编写、物理问题解决也还行,不过有些地方比不上Claude 3.7这种专门的推理模型。

  • 价格:GPT - 4.5使用成本比GPT - 4o高多了。每百万输入输出费用,GPT - 4.5是75美元,GPT - 4o是3美元;输出费用GPT - 4.5是150美元,GPT - 4o是15美元,GPT - 4.5成本是GPT - 4o的好几倍。

  • 功能与限制方面:GPT - 4.5功能更多,像搜索、文件和图像上传、画布写作和编码都能支持,但不支持语音、视频和屏幕共享等多模态功能,这方面比GPT - 4o差些。

以下是GPT-4.5与GPT-4o的对比表格:

特性GPT-4.5GPT-4o
发布时间2025年2月27日2023年3月15日
模型规模1T激活参数的Transformer MoE架构较小的参数规模
训练数据截至2024年6月的互联网全量内容相对有限的训练数据
计算效率提升10倍以上较低的计算效率
幻觉率SimpleQA基准测试中为37.1%较高的幻觉率
知识广度通过无监督学习扩展知识储备相对有限的知识储备
情感智能能够识别用户情绪并提供更具温度的回应较低的情感智能
对话自然度对话体验更加自然,理解用户言外之意对话体验较为机械
创造力在写作、设计等方面表现出色创造力较弱
多模态能力支持文件和图片上传,处理写作和代码任务相对较弱的多模态能力
价格输入75美元/百万token,输出150美元/百万token输入2.50美元/百万token,输出10美元/百万token

OpenAI的GPT系列模型的发展历程

GPT-1:

  • 发布时间:2018年

  • 特点:几乎无法生成连贯的文本,标志着GPT系列的开始。

GPT-2:

  • 发布时间:2019年

  • 特点:能力有限,有时显得混乱,但开始展现出一些生成连贯文本的能力。

GPT-3:

  • 发布时间:2020年

  • 特点:显著的飞跃,生成文本的能力大幅提升,成为GPT系列的一个重要里程碑。

GPT-3.5 Turbo:

  • 发布时间:2022年

  • 特点:在某些问题上提供了更准确和简洁的答案,但仍有一些改进空间。

GPT-4:

  • 发布时间:2023年3月

  • 特点:整体感觉更好,词语选择更具创造力,对prompt的理解有所提升,幻觉的频率略有降低。尽管提升是微妙的,但整体表现更佳。

GPT-4.5:

  • 发布时间:2025年2月

  • 特点:更像人的对话体验,情感理解和情商的提升,知识储备和能力显著增强。尽管提升微妙,但仍然令人兴奋。


收藏
最新工具
Shell Shockers
Shell Shockers

一款多人在线的第一人称射击游戏,玩家操控各种“武装鸡蛋”在竞技场...

Sheet0
Sheet0

一个L4级 Data Agent工具,用户只需输入需求指令,系统...

DrFonts
DrFonts

一个AI字体生成工具,它能把手写的PNG图片,比如纸上的字稿,自...

Coding Adventure
Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh
Vert.sh

一款完全免费、开源的文件转换工具,支持图片、音频、文档的本地处理...

Windrecorder
Windrecorder

捕风记录仪,一款开源的屏幕录制与检索工具,它记录屏幕内容来实现记...

Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...