Google Gemini 是由 Google 推出的一款基于人工智能的大型语言模型（LLM）-优快云博客

Google Gemini 是由 Google 推出的一款基于人工智能的大型语言模型（LLM），原名为 Bard，在 2023 年底正式升级并更名为 Gemini。它集成了 Google 在自然语言处理、多模态理解和生成式 AI 方面的最新技术，支持文本生成、图像理解、代码编写、语音识别等多种功能。

Gemini 被设计为一个多模态 AI 助手，能够理解并生成文本、图像、音频和视频内容，并与 Google 的生态系统（如 Google Search、YouTube、Gmail、Drive 等）深度集成，提供更智能的服务。

🔍 主要特性

特性	描述
✅ 多模态能力	可以输入和理解文本 + 图片（例如上传图表、截图进行分析）
✅ 免费使用	当前基础版 Gemini 可免费访问（gemini.google.com）
✅ 集成 Google 工具	支持搜索实时信息、查看 YouTube 视频摘要、访问 Google Calendar、Gmail 等
✅ 支持编程与代码生成	提供 Python、JavaScript、SQL 等语言的代码建议和调试帮助
✅ Gemini Advanced	付费版本，使用更强大的 Ultra 1.0 / Ultra 1.5 模型，适合复杂任务
✅ 移动 App	支持 Android 和 iOS 应用，便于随时使用

🧪 示例：使用 Gemini 编写 Python 脚本

你可以向 Gemini 提问：

“请写一个 Python 脚本，将一段立体声音频拆分为左右两个声道并保存为单独的 WAV 文件。”

Gemini 会返回如下代码：

from pydub import AudioSegment

# 加载音频文件
audio = AudioSegment.from_file("input_stereo.mp3", format="mp3")

# 分离左右声道（pydub 使用左=0，右=1）
left_channel = audio.split_to_mono()[0]
right_channel = audio.split_to_mono()[1]

# 保存为独立文件
left_channel.export("left.wav", format="wav")
right_channel.export("right.wav", format="wav")

print("左右声道已成功分离并保存。")

💬 Gemini vs 其他大模型对比

模型	开发者	多模态	实时搜索	编程能力	是否免费
Google Gemini	Google	✅	✅（默认启用）	✅	✅（基础版）
ChatGPT (GPT-3.5/4)	OpenAI	✅（Plus 版支持图像）	❌	✅	❌（需订阅）
Claude 3	Anthropic	✅	❌	✅✅	❌（部分免费）
Qwen（通义千问）	阿里云	✅	✅	✅	✅（开源免费）

🚀 如何开始使用 Gemini？

打开 https://gemini.google.com
使用 Google 账号登录
开始提问（支持中文）
（可选）升级到 Gemini Advanced（约 $19.99/月，含 Google One AI Premium）

⚠️ 注意事项

Gemini 的回答可能包含错误（“幻觉”），尤其是在处理专业领域知识时。
不适用于生成受版权保护的内容或敏感数据处理。
当前不支持直接调用硬件接口（如 Dolby Atmos 渲染器），但可用于辅助开发脚本。

你可以通过 Google 的 Gemini API（属于 Generative AI for Developers）在 Python 中调用 Gemini 模型，实现文本生成、图像识别、代码编写等任务。该 API 由 Google 提供，支持多模态输入（文本 + 图像），并可通过 google.generativeai 库轻松集成到 Python 项目中。

✅ 第一步：获取 API 密钥

访问 Google AI Studio
登录 Google 账号
点击“Get API Key”或创建一个新的密钥
复制你的 API Key（形如 AIzaSy...）

🔐 注意：请妥善保管 API 密钥，不要公开分享。

✅ 第二步：安装依赖库

pip install google-generativeai

✅ 第三步：基本使用示例（纯文本）

import google.generativeai as genai

# 配置 API 密钥
genai.configure(api_key="your_api_key_here")  # 替换为你的实际密钥

# 选择模型（目前主要使用 gemini-pro 或 gemini-pro-vision）
model = genai.GenerativeModel('gemini-pro')

# 发送请求
response = model.generate_content("请解释什么是 Python 的装饰器？")

# 输出结果
print(response.text)

✅ 示例 2：多模态输入（图像 + 文本）

from PIL import Image
import google.generativeai as genai

genai.configure(api_key="your_api_key_here")

model = genai.GenerativeModel('gemini-pro-vision')

# 加载图像
img = Image.open('chart.png')  # 例如一张图表或截图

# 结合图像和文本提问
response = model.generate_content(["分析这张图中的趋势，并给出结论建议", img])

print(response.text)

✅ 示例 3：流式响应（逐步输出）

for chunk in model.generate_content("写一个快速排序的 Python 实现", stream=True):
    print(chunk.text)

✅ 示例 4：设置生成参数（可选）

generation_config = {
    "temperature": 0.7,
    "top_p": 0.8,
    "top_k": 40,
    "max_output_tokens": 1024,
}

model = genai.GenerativeModel('gemini-pro', generation_config=generation_config)
response = model.generate_content("写一篇关于气候变化的短文")
print(response.text)

🛠️ 实用技巧

安全设置：可以配置内容安全过滤级别：

safety_settings = [
    {
        "category": "HARM_CATEGORY_DANGEROUS",
        "threshold": "BLOCK_ONLY_HIGH"
    }
]

response = model.generate_content("...", safety_settings=safety_settings)

历史对话管理：使用 start_chat() 支持上下文记忆：

chat_model = genai.GenerativeModel('gemini-pro')
chat = chat_model.start_chat(history=[])

response = chat.send_message("你好！")
print(response.text)

response = chat.send_message("上一句话我说了什么？")
print(response.text)

💡 常见应用场景

场景	示例
自动问答系统	构建客服机器人
图像理解	分析医学影像、图表、照片描述
代码生成与调试	根据需求生成 Python、SQL 脚本
内容摘要	提取长文本的核心要点
教育辅助	解题、讲解概念