这个项目让你只需用语音就能与大语言模型 (LLM) 聊天,并近乎实时地接收语音回复。把它当成你自己的数字对话伙伴吧。
主要特点
- 流畅的对话:说和听,就像真正的聊天一样。
- 实时反馈:查看部分转录和 AI 响应。
- 低延迟焦点:使用音频块流优化架构。
- 智能轮流发言:动态静音检测(
turndetect.py
)可适应对话节奏。 - 灵活的 AI 大脑:可插入的 LLM 后端(Ollama 默认,通过 OpenAI 支持
llm_module.py
)。 - 可定制的声音:从不同的文本到语音引擎中进行选择(Kokoro、Coqui、Orpheus via
audio_module.py
)。 - Web 界面:使用 Vanilla JS 和 Web Audio API 的干净、简单的 UI。
- Dockerized 部署:建议使用 Docker Compose 进行设置,以便于依赖项管理。
评论