AI 语音助手 - 文本转语音与智能对话系统(已接入deepseek、通义千问、Gimini)

AI 语音助手 - 文本转语音与智能对话系统

项目简介

这是一个基于 Python 开发的 AI 语音助手桌面应用程序,集成了文本转语音(TTS)和智能对话功能。主要特点:

  • 支持文本转语音,包含多种中文语音选项
  • 集成多个 AI 对话模型(Gemini/通义千问/Deepseek)
  • 简洁美观的图形界面
  • 支持语速、音量调节
  • 支持文本导入导出
  • 支持对话历史管理

程序界面截图1
程序界面截图2
程序界面截图3

功能特性

文本转语音

  • 13种不同风格的中文语音(含普通话、粤语、台语)
  • 可调节语速(-100% ~ +100%)
  • 可调节音量(0 ~ 100%)
  • 支持文本文件导入
  • 支持回车快捷转换

AI 对话

  • 支持多种对话模型:
    • Google Gemini
    • 阿里通义千问
    • Deepseek
  • 自动语音朗读功能
Gemini的安装和使用可从多个方面进行操作,以下是不同场景下的安装使用方法: ### 在VS Code中安装使用Gemini CLI Gemini CLI是Google推出的命令行工具,用于本地Gemini大语言模型进行交互应用开发,便于开发者调用Gemini API进行原型搭建、模型测试和脚本化操作。在安装过程中,因系统环境或依赖版本不一致,Windows + VS Code开发环境下常遇到题。安装步骤如下: 1. 安装Gemini CLI,此过程可能因系统环境等因素遇到常见报错,需根据实际情况解决以顺利完成安装并运行 [^1]。 ### 从GitHub开源项目安装使用Gemini Gemini的GitHub仓库为https://github.com/anishathalye/gemini.git ,项目结构如下: ```plaintext gemini/ │ ├── README.md # 项目介绍和快速入门指南 ├── LICENSE # 许可证文件 ├── src/ # 源代码目录 │ ├── main.py # 主入口文件,通常用于启动程序 │ ├── gemini.py # 核心业务逻辑实现 │ └── utils.py # 辅助函数或工具集 ├── config/ # 配置文件夹 │ ├── settings.ini # 应用配置文件,包含数据库连接等信息 ├── docs/ # 文档目录,包含API说明和技术文档 │ ├── guide.md # 用户使用手册 │ └── api.md # API参考文档 ├── tests/ # 单元测试和集成测试目录 │ └── test_gemini.py ├── requirements.txt # 项目依赖列表 └── setup.py # 项目安装脚本,用于pip安装项目 ``` 可根据仓库中的README.md进行快速入门,通过`setup.py`和`requirements.txt`完成项目安装和依赖配置 [^2]。 ### 在Termux中安装使用Google Gemini CLI 在Termux中安装时,安装过程可能需几分钟,取决于网络速度。安装完成后会有类似“changed 431 packages in 37s 123 packages are looking for funding run `npm fund` for details”的输出,之后需进行API密钥的配置 [^4]。 ### 使用谷歌Gemini AI模型 Gemini模型从大到小分为Ultra、Pro、Nano。Pro已整合到谷歌的Bard平台,但目前仅支持英文地区用户使用。对于中文地区用户,若要使用,需将账户设置更改为英文地区。使用步骤如下: 1. 访Bard官网,后续按官网指引结合英文地区账户设置进行操作(谷歌发布会展示的Gemini Ultra目前暂无使用途径) [^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值