Google Gemini 是由 Google 推出的一款基于人工智能的大型语言模型(LLM),原名为 Bard,在 2023 年底正式升级并更名为 Gemini。它集成了 Google 在自然语言处理、多模态理解和生成式 AI 方面的最新技术,支持文本生成、图像理解、代码编写、语音识别等多种功能。
Gemini 被设计为一个多模态 AI 助手,能够理解并生成文本、图像、音频和视频内容,并与 Google 的生态系统(如 Google Search、YouTube、Gmail、Drive 等)深度集成,提供更智能的服务。
🔍 主要特性
| 特性 | 描述 |
|---|---|
| ✅ 多模态能力 | 可以输入和理解文本 + 图片(例如上传图表、截图进行分析) |
| ✅ 免费使用 | 当前基础版 Gemini 可免费访问(gemini.google.com) |
| ✅ 集成 Google 工具 | 支持搜索实时信息、查看 YouTube 视频摘要、访问 Google Calendar、Gmail 等 |
| ✅ 支持编程与代码生成 | 提供 Python、JavaScript、SQL 等语言的代码建议和调试帮助 |
| ✅ Gemini Advanced | 付费版本,使用更强大的 Ultra 1.0 / Ultra 1.5 模型,适合复杂任务 |
| ✅ 移动 App | 支持 Android 和 iOS 应用,便于随时使用 |
🧪 示例:使用 Gemini 编写 Python 脚本
你可以向 Gemini 提问:
“请写一个 Python 脚本,将一段立体声音频拆分为左右两个声道并保存为单独的 WAV 文件。”
Gemini 会返回如下代码:
from pydub import AudioSegment
# 加载音频文件
audio = AudioSegment.from_file("input_stereo.mp3", format="mp3")
# 分离左右声道(pydub 使用左=0,右=1)
left_channel = audio.split_to_mono()[0]
right_channel = audio.split_to_mono()[1]
# 保存为独立文件
left_channel.export("left.wav", format="wav")
right_channel.export("right.wav", format="wav")
print("左右声道已成功分离并保存。")
💬 Gemini vs 其他大模型对比
| 模型 | 开发者 | 多模态 | 实时搜索 | 编程能力 | 是否免费 |
|---|---|---|---|---|---|
| Google Gemini | ✅ | ✅(默认启用) | ✅ | ✅(基础版) | |
| ChatGPT (GPT-3.5/4) | OpenAI | ✅(Plus 版支持图像) | ❌ | ✅ | ❌(需订阅) |
| Claude 3 | Anthropic | ✅ | ❌ | ✅✅ | ❌(部分免费) |
| Qwen(通义千问) | 阿里云 | ✅ | ✅ | ✅ | ✅(开源免费) |
🚀 如何开始使用 Gemini?
- 打开 https://gemini.google.com
- 使用 Google 账号登录
- 开始提问(支持中文)
- (可选)升级到 Gemini Advanced(约 $19.99/月,含 Google One AI Premium)
⚠️ 注意事项
- Gemini 的回答可能包含错误(“幻觉”),尤其是在处理专业领域知识时。
- 不适用于生成受版权保护的内容或敏感数据处理。
- 当前不支持直接调用硬件接口(如 Dolby Atmos 渲染器),但可用于辅助开发脚本。
你可以通过 Google 的 Gemini API(属于 Generative AI for Developers)在 Python 中调用 Gemini 模型,实现文本生成、图像识别、代码编写等任务。该 API 由 Google 提供,支持多模态输入(文本 + 图像),并可通过 google.generativeai 库轻松集成到 Python 项目中。
✅ 第一步:获取 API 密钥
- 访问 Google AI Studio
- 登录 Google 账号
- 点击“Get API Key”或创建一个新的密钥
- 复制你的 API Key(形如
AIzaSy...)
🔐 注意:请妥善保管 API 密钥,不要公开分享。
✅ 第二步:安装依赖库
pip install google-generativeai
✅ 第三步:基本使用示例(纯文本)
import google.generativeai as genai
# 配置 API 密钥
genai.configure(api_key="your_api_key_here") # 替换为你的实际密钥
# 选择模型(目前主要使用 gemini-pro 或 gemini-pro-vision)
model = genai.GenerativeModel('gemini-pro')
# 发送请求
response = model.generate_content("请解释什么是 Python 的装饰器?")
# 输出结果
print(response.text)
✅ 示例 2:多模态输入(图像 + 文本)
from PIL import Image
import google.generativeai as genai
genai.configure(api_key="your_api_key_here")
model = genai.GenerativeModel('gemini-pro-vision')
# 加载图像
img = Image.open('chart.png') # 例如一张图表或截图
# 结合图像和文本提问
response = model.generate_content(["分析这张图中的趋势,并给出结论建议", img])
print(response.text)
✅ 示例 3:流式响应(逐步输出)
for chunk in model.generate_content("写一个快速排序的 Python 实现", stream=True):
print(chunk.text)
✅ 示例 4:设置生成参数(可选)
generation_config = {
"temperature": 0.7,
"top_p": 0.8,
"top_k": 40,
"max_output_tokens": 1024,
}
model = genai.GenerativeModel('gemini-pro', generation_config=generation_config)
response = model.generate_content("写一篇关于气候变化的短文")
print(response.text)
🛠️ 实用技巧
- 安全设置:可以配置内容安全过滤级别:
safety_settings = [
{
"category": "HARM_CATEGORY_DANGEROUS",
"threshold": "BLOCK_ONLY_HIGH"
}
]
response = model.generate_content("...", safety_settings=safety_settings)
- 历史对话管理:使用
start_chat()支持上下文记忆:
chat_model = genai.GenerativeModel('gemini-pro')
chat = chat_model.start_chat(history=[])
response = chat.send_message("你好!")
print(response.text)
response = chat.send_message("上一句话我说了什么?")
print(response.text)
💡 常见应用场景
| 场景 | 示例 |
|---|---|
| 自动问答系统 | 构建客服机器人 |
| 图像理解 | 分析医学影像、图表、照片描述 |
| 代码生成与调试 | 根据需求生成 Python、SQL 脚本 |
| 内容摘要 | 提取长文本的核心要点 |
| 教育辅助 | 解题、讲解概念 |
⚠️ 注意事项
- 免费额度有限(截至 2024 年初,每月约 60 请求/秒,具体以官方为准)
- 不支持所有国家和地区访问
- 图像大小限制:通常不超过 20MB
- 目前不支持视频直接输入(但可逐帧处理)



被折叠的 条评论
为什么被折叠?



