RealtimeVoiceChat:实时收到语音回复的实时AI语音聊天应用

RealtimeVoiceChat是什么?

RealtimeVoiceChat是一个能让你用语音和智能系统聊天的开源项目,还能实时收到语音回复。它通过网络传输音频片段,把语音变成文字,让智能系统处理,再把文字变成语音。这个项目支持多种智能系统(默认用Ollama,也能用Openai),还能灵活选择语音风格。它采用客户端-服务器架构,优化了低延迟,能智能检测对话轮次,让聊天更流畅。推荐用Docker来部署,如果有CUDA-enabled NVIDIA GPU,性能会更好。

RealtimeVoiceChat:实时收到语音回复的实时AI语音聊天应用.webp

RealtimeVoiceChat核心功能

  • 流式语音交互:用户语音被浏览器捕获,通过WebSockets传输到Python后端,实时转录为文本,发送给LLM处理,然后将文本响应转换为语音流回传给用户。

  • 低延迟设计:通过音频块流式传输优化架构,确保对话流畅。

  • 智能轮次检测:动态静默检测,根据对话节奏自动切换说话权。

  • 灵活的AI后端:支持多种LLM后端(默认为Ollama,也支持OpenAI)。

  • 可定制语音:可以选择不同的文本到语音引擎(如Kokoro、Coqui、Orpheus)。

  • 简洁的Web界面:使用Vanilla JS和Web Audio API构建的简单用户界面。

  • Docker化部署:推荐使用Docker Compose进行部署,便于管理依赖。

RealtimeVoiceChat特点

  • 实时交互:用户可以使用语音与 AI 进行对话,AI 也会以语音形式实时回应。

  • 多组件协作:项目包含前端的音频处理和 UI 交互,以及后端的语音转录、文本处理和语音合成等功能。

  • 可配置性:支持多种 TTS 引擎和 LLM 模型,并且可以通过环境变量进行配置。

技术栈

  • 后端:Python 3.x,FastAPI

  • 前端:HTML、CSS、JavaScript(Vanilla JS、Web Audio API、AudioWorklets)

  • 通信:WebSockets

  • 容器化:Docker、Docker Compose

  • 核心AI/ML库:RealtimeSTT(语音转文本)、RealtimeTTS(文本转语音)、transformers(轮次检测、分词)、torch/torchaudio(机器学习框架)、ollama/openai(LLM客户端)

  • 音频处理:numpy、scipy

安装与部署

Docker安装(推荐)

  1. 克隆项目并进入目录。

  2. 构建Docker镜像(会下载基础镜像、安装Python/ML依赖并预下载默认STT模型)。

  3. 启动服务(App和Ollama)。

  4. 拉取所需的Ollama模型。

  5. 通过浏览器访问http://localhost:8000,开始语音聊天。

手动安装

  1. 创建并激活Python虚拟环境。

  2. 安装PyTorch(根据硬件配置)。

  3. 安装其他依赖(requirements.txt)。

  4. 启动FastAPI服务器。

  5. 通过浏览器访问http://localhost:8000,开始语音聊天。

配置与定制

  • TTS引擎与语音:在server.py和audio_module.py中配置。

  • LLM后端与模型:在server.py和llm_module.py中配置。

  • STT设置:在transcribe.py中配置。

  • 轮次检测灵敏度:在turndetect.py中配置。

  • SSL/HTTPS:在server.py中配置。

项目地址

GitHub仓库:https://github.com/KoljaB/RealtimeVoiceChat

收藏
最新工具
Thea AI
Thea AI

一个专门为学生设计的AI学习平台。它能自动把课堂笔记、PDF文件...

Pose Search
Pose Search

一个开源的人体姿势搜索工具,允许用户根据性别、关节或身体部位来筛...

Linnk AI
Linnk AI

面向研究人员和专业人士的工具,能在网页、PDF 及多种文档里快速...

Mentimeter
Mentimeter

一个让传统演示变得更有趣、更互动的工具。它特别适合用在教育、企业...

落笔AI写作
落笔AI写作

一个专为故事创作者设计的Ai小说写作辅助工具,最大特点是把“找灵...

灵光APP
灵光APP

蚂蚁集团推出的全模态AI助手,它能理解和生成语言、图像、语音与数...

Moakt Email
Moakt Email

一个能提供临时邮箱服务的平台,不用注册就能快速弄出一个一次性的邮...

JOJO看报
JOJO看报

一个能在线看老报纸和杂志的网站,有《人民日报》《参考消息》《红旗...

超级表格
超级表格

一款多人共享的在线表格工具,结合表格与表单功能,支持多人同时查看...

萝卜简历
萝卜简历

一个免费在线简历制作工具,用AI帮应届生和求职者写更贴合岗位的简...