Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型

Speech-02是什么?

MiniMax Audio Speech-02是一款强大的文本转语音(TTS)模型,能够将任何文件或URL瞬间转化为逼真的音频 。它支持高达20万字符的单次输入,覆盖30多种语言,并带有地道口音 。此外,Speech-02还支持无限语音克隆、亚秒级流媒体处理以及多种音频格式(如FLAC、WAV、MP3和PCM) 。

Speech-02模型提供两种版本:speech-02-hd-preview(以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景)和speech-02-turbo-preview(在低延迟和高性能之间取得平衡,适合实时应用) 。

Speech-02:MiniMax Audio新发布的一款强大的文本转语音(TTS)模型.webp

语言与语音能力

  • 多语言支持:Speech-02支持30多种语言的文本转语音,包括英语、中文、日语、韩语、法语、德语、西班牙语、葡萄牙语、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语、印地语、泰语、波兰语、罗马尼亚语、希腊语、芬兰语和印尼语等,且带有地道口音。

  • 语音库丰富:拥有300多个真实自然的声音,支持多种语言的地道表达。

技术性能

  • 单次输入字符数:单次输入支持高达20万字符。

  • 流媒体处理速度:支持亚秒级流媒体处理。

  • 模型版本:包括speech-02-hd-preview和speech-02-turbo-preview。前者以99%的语音相似度和工作室级清晰度为特点,适合配音、有声书等需要逼真表现的场景;后者则在低延迟和高性能之间取得平衡,适合实时应用。

Speech-02功能特性

  • 无限语音克隆:能够以行业领先的质量,快速克隆出多种风格和语调的语音。

  • 语音控制:用户可以轻松控制语音的情感、音量、速度和输出格式。

  • 语音混合:可以将现有的语音组合起来,创造出全新的独特语音。

  • 音频格式支持:支持FLAC、WAV、MP3和PCM等多种音频格式。

Speech-02应用场景

  • 有声书制作:适合将长篇小说、学术论文等转化为高质量的音频内容。

  • 播客创作:帮助播客创作者制作更具吸引力和多样性的内容。

  • 电影与游戏配音:提供电影级低音和沉浸式音频效果。

  • 国际会议与翻译:支持在多种语言之间即时无缝切换。

目前,Speech-02模型已经在MiniMax Audio平台及API平台上线,但国内版尚未推出。

官方链接

MiniMax Audio平台:https://www.minimax.io/audio 

MiniMax Audio API平台:https://www.minimax.io/platform 

收藏
#文本转AI语音
最新工具
Chess Tempo
Chess Tempo

一个在线国际象棋训练平台。它的战术题库质量很高,后来又增加了多种...

DeeVid AI
DeeVid AI

一个用AI生成视频的工具。它能让没有技术基础的人,通过输入文字、...

Hole.io
Hole.io

一款由 Voodoo 出品的休闲竞技手游,核心玩法是“大洞吃小洞...

Monotype Fonts
Monotype Fonts

蒙纳字库做的企业字体订阅和管理平台,主打一站式解决用字问题。现在...

Flova AI
Flova AI

一个面向短片、广告、动画和社交媒体创作者的AI创作平台。它能把一...

Prosperous Universe
Prosperous Universe

Simulogics开发的一款硬核太空题材经济模拟经营类MMO游...

MediaCrawler
MediaCrawler

一个功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、...

WeaveFox
WeaveFox

实现设计稿高精度转代码,它把 “设计稿还原 + 需求编码 + 部...

Narrow.One
Narrow.One

中世纪背景的多人网上射击游戏,主打弓箭对战和5v5团队竞技。Pe...

Slopeio.org
Slopeio.org

主打《Slope》快节奏跑酷游戏,这游戏是Y8 Studio做的...