Linguflex
简介
Linguflex 是一个开源项目,旨在通过语音交互实现类似科幻电影中 Jarvis(《钢铁侠》中的智能助手)那样的人工智能体验。它允许用户通过语音与自定义角色进行对话,并具备多种实用功能,如智能家居控制、播放音乐、搜索互联网、获取电子邮件、显示天气信息和新闻等。
项目的核心目标是模拟真实的人类互动,同时提供高效的语音交互体验。
主要特点
- 本地化操作
- 所有功能均在本地运行,包括语音识别、文本到语音(TTS)合成和语言模型推理,确保隐私和可靠性。
- 超低延迟
- Linguflex 经过优化,以实现语言模型通信和 TTS 生成的极低延迟,提供快速响应。
- 高质量音频
- 结合语音克隆技术和微调后的 TTS 模型,提供接近 Elevenlabs 质量的本地 TTS 合成。
- 增强功能
- 通过关键字预解析用户输入,减少语言模型的负担,快速适应和响应各种文本命令。
- 开发友好
- 简约且清晰的编码框架,便于开发者构建新模块。
- Ollama 支持
- 新增对 Ollama 的支持,由开发者 Philip Ehrbright 贡献。
核心模块
- Listen(音频输入模块)
- 捕获麦克风输入的语音指令,作为 Linguflex 的听觉系统。
- Brain(大脑模块)
- 处理用户输入,支持本地语言模型或 OpenAI GPT API。
- Speech(音频输出模块)
- 提供实时 TTS 功能,支持多种语音提供商和高级语音调节功能,包括实时语音克隆(RVC)。
扩展模块
- Mimic
- 允许用户设计自定义 AI 角色并分配独特声音。
- Music
- 通过语音命令播放音乐或专辑。
- Mail
- 使用 IMAP 检索电子邮件。
- Weather
- 提供当前天气信息和预报。
- House
- 控制兼容 Tuya 的智能家居设备。
- Calendar
- 管理个人日历和预约,支持 Google Calendar。
- Search
- 使用 Google Search API 进行文本和图像搜索。
- Server
- 提供 Webserver 功能,连接外部设备(如智能手机)。
即将推出的功能模块
- See
- 使用 GPT Vision API 提供视觉能力,支持处理摄像头图片和桌面截图。
- Memory
- 存储和检索可翻译为 JSON 的数据。
- News
- 提供新闻摘要。
- Finance
- 提供金融管理功能,集成多种金融 API。
- Create
- 使用 DALL-E API 生成图像。
安装与使用
-
安装指南
Linguflex 的安装过程可能较为复杂,因为项目依赖于多种 Python 库、操作系统版本、CUDA 和 CuDNN 版本。详细的安装步骤可在 Linguflex 安装文档中查看。 -
视频教程
提供了安装视频指南和实际操作演示,帮助用户更好地理解和使用 Linguflex:
社区与支持
- Discord 频道:https://discord.gg/f556hqRjpv
- YouTube 频道:https://www.youtube.com/channel/UCLeuwdsZO8txzFSSAeLjGlQ
- Twitter:https://twitter.com/LonLigrin