Ai应用
Ai资讯
AI生图
AI生视频
开源AI应用平台

首页 > Ai资讯 > Ai产品

OpenAI 发布了三款全新语音模型，包括两款语音转文本模型以及一款文本转语音模型

映技派于2025-03-21发布在Ai产品

2025 年 3 月 20 日，Openai 发布了三款全新的语音模型，包括两款语音转文本模型（GPT-4o-transcribe 和 GPT-4o-mini-transcribe）以及一款文本转语音模型（GPT-4o-mini-tts）。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

GPT-4o-transcribe：该模型经过多样化、高质量音频数据集的长时间训练，能够更好地捕捉语音的细微差别，减少误识别，大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景，例如客户呼叫中心和会议记录转录等领域。
GPT-4o-mini-transcribe：这是 GPT-4o-transcribe 的精简版本，速度更快、效率更高。虽然其单词错误率（WER）稍高于完整版模型，但仍优于原有的 Whisper 模型，更适合资源有限但需要高质量语音识别的应用场景。

文本转语音模型

GPT-4o-mini-tts：这款模型首次支持“可引导性”（steerability），开发者不仅可以指定模型“说什么”，还能控制“怎么说”，例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等，还能根据指令调整语音风格，如“像富有同情心的客服 Agent 一样说话”。

技术创新

使用真实音频数据集进行预训练，优化模型性能。
增强的蒸馏方法，实现从大模型到小模型的知识转移。
强化学习，提升转录精度并减少“幻觉”现象。

应用场景

呼叫中心：提供更准确的语音识别和更自然的语音合成，提升客户服务体验。
会议记录：快速准确地将会议语音内容转录为文本。
个性化客服：通过语音风格的定制，提供更具温度和表现力的语音体验。
创意故事讲述：为故事添加生动的语音效果。

定价

GPT-4o-transcribe 的价格与之前的 Whisper 模型相同，每分钟 0.006 美元。
GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。
GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站：OpenAI.fm，网站提供了丰富的预设模板，包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外，OpenAI 还提供了升级版的 Agent SDK，帮助开发者更便捷地构建语音智能体。

官方网站：http://openai.fm/

官方博客：https://openai.com/index/introducing-our-next-generation-audio-models/

收藏

#文本转AI语音 #语音转文字 #文字转语音

OpenAI语音模型GPT-4o-transcribe、GPT-4o-mini-transcribe和GPT-4o-mini-tts的特点、定价和使用场景

上一篇

OpenAI语音模型GPT-4o-transcribe、GPT-4o-mini-transcribe和GPT-4o-mini-tts的特点、定价和使用场景

MoneyPrinterTurbo：只需提供一个关键词，利用AI大模型，一键生成高清短视频。

下一篇

MoneyPrinterTurbo：只需提供一个关键词，利用AI大模型，一键生成高清短视频。

相关文章

Kyutai TTS：专为实时场景设计的开源文本转语

Kyutai TTS：专为实时场景设计的开源文本转语

2025-07-05

llasa 3B TTS：基于LLaMA架构的文本到

llasa 3B TTS：基于LLaMA架构的文本到

2025-01-25

Noiz AI配音使用教程指南

Noiz AI配音使用教程指南

2025-04-12

Speech-02：MiniMax Audio新发布

Speech-02：MiniMax Audio新发布

2025-04-01

Llasa:一款基于Llama的文本转语音（TTS）

Llasa:一款基于Llama的文本转语音（TTS）

2025-03-04

WhisperChain:实时语音转录工具，可把口语

WhisperChain:实时语音转录工具，可把口语

2025-03-02

最新文章

最新工具

AiPyApp

一款以Python为核心的开源新人工智能体助手，结合大模型和 P...

Adobe Express

Adobe推出的一站式设计工具，整合了图像、视频、文档/PDF、...

Intangible AI

创意行业空间智能AI平台，通过简洁的3D界面与空间智能技术解决A...

法大大iTerms

法大大推出的一站式法律AI工作台，基于自研法律大模型的AI智能体...

Relume

一个通过AI来优化网站设计与搭建流程的平台，可以快速生成网站地图...

Pomelli

Google开发的AI营销工具，主要服务中小商家。你只需要提供企...

Gartic.io

一个很受欢迎的在线绘画猜词游戏。它把经典的“你画我猜”玩法和多人...

LandPPT

一个基于大语言模型的开源免费AIPPT生成平台，支持将文档内容自...

AppleWalls

一个免费提供苹果官方内置壁纸下载的网站，包括iPhone、iPa...

Coddy.Tech

一个免费、有趣且实用的编程学习平台。支持学习包括 Python、...

人生若只如初见

用户登录