OpenAI 发布了三款全新语音模型,包括两款语音转文本模型以及一款文本转语音模型

2025 年 3 月 20 日,Openai 发布了三款全新的语音模型,包括两款语音转文本模型(GPT-4o-transcribe 和 GPT-4o-mini-transcribe)以及一款文本转语音模型(GPT-4o-mini-tts)。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

  • GPT-4o-transcribe:该模型经过多样化、高质量音频数据集的长时间训练,能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景,例如客户呼叫中心和会议记录转录等领域。

  • GPT-4o-mini-transcribe:这是 GPT-4o-transcribe 的精简版本,速度更快、效率更高。虽然其单词错误率(WER)稍高于完整版模型,但仍优于原有的 Whisper 模型,更适合资源有限但需要高质量语音识别的应用场景。

文本转语音模型

  • GPT-4o-mini-tts:这款模型首次支持“可引导性”(steerability),开发者不仅可以指定模型“说什么”,还能控制“怎么说”,例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等,还能根据指令调整语音风格,如“像富有同情心的客服 Agent 一样说话”。

技术创新

  • 使用真实音频数据集进行预训练,优化模型性能。

  • 增强的蒸馏方法,实现从大模型到小模型的知识转移。

  • 强化学习,提升转录精度并减少“幻觉”现象。

应用场景

  • 呼叫中心:提供更准确的语音识别和更自然的语音合成,提升客户服务体验。

  • 会议记录:快速准确地将会议语音内容转录为文本。

  • 个性化客服:通过语音风格的定制,提供更具温度和表现力的语音体验。

  • 创意故事讲述:为故事添加生动的语音效果。

定价

  • GPT-4o-transcribe 的价格与之前的 Whisper 模型相同,每分钟 0.006 美元。

  • GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。

  • GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站:OpenAI.fm,网站提供了丰富的预设模板,包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外,OpenAI 还提供了升级版的 Agent SDK,帮助开发者更便捷地构建语音智能体。

官方网站:http://openai.fm/

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

收藏
#文本转AI语音 #语音转文字 #文字转语音
最新工具
NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...

Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...

Resource Boy
Resource Boy

一个提供高质量免费样机等设计资源的网站,有很多素材,像材质、笔刷...

AlternativeTo
AlternativeTo

一个众包软件推荐平台,可以帮用户找到更好的应用和服务。你可以搜各...

DaYin.page
DaYin.page

一个强大、免费、易用的在线习题打印生成器网站,可以一键生成数学题...

Mobile Phone Museum
Mobile Phone Museum

一个非营利组织的手机博物馆,目的是存档和保存移动技术,并扩大对移...

BlackACE黑桃A
BlackACE黑桃A

一款可以将网站转换为安卓APP的工具,它可以够帮助个人开发者、创...

Aluo AI
Aluo AI

电商AI图片编辑平台,30 秒就能做出专业的商品图片,它能自动扣...