browser-use开源程序使 AI 代理可以访问网站,自动完成特定的指定任务,告诉您的计算机该做什么,它就会完成它。

一、软件介绍

文末提供程序和源码下载

      browser-use开源程序使 AI 代理可以访问网站,自动完成特定的指定任务,浏览器使用是将AI代理与浏览器连接的最简单方法。告诉您的计算机该做什么,它就会完成它。

二、快速开始

使用 pip (Python>=3.11):

pip install browser-use
Install Playwright:  安装 Playwright:

playwright install chromium
Spin up your agent:  启动您的代理:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()

async def main():
    agent = Agent(
        task="Compare the price of gpt-4o and DeepSeek-V3",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())
Add your API keys for the provider you want to use to your .env file.
将要使用的提供程序的 API 密钥添加到 .env 文件中。

OPENAI_API_KEY=
ANTHROPIC_API_KEY=
AZURE_ENDPOINT=
AZURE_OPENAI_API_KEY=
GEMINI_API_KEY=
DEEPSEEK_API_KEY=

 使用 UI 进行测试

简单地运行 gradio 示例:

uv pip install gradio
python examples/ui/gradio_demo.py

三、演示

任务 :将杂货添加到购物车,然后结帐。

提示:将我最新的 LinkedIn 关注者添加到 Salesforce 中的潜在客户中。

提示 :阅读我的简历并找到 ML 工作,将它们保存到一个文件中,然后在新的标签页中开始申请它们,如果你需要帮助,就问我。

提示 :在 Google Docs 中写一封信给我爸爸,感谢他所做的一切,并将文档保存为 PDF

提示 :在 Hugging face 上查找具有 cc-by-sa-4.0 许可证的模型,并按点赞数排序,将前 5 名保存到文件中

四、其他

Agent  代理
 Improve agent memory (summarize, compress, RAG, etc.)
改进代理内存(summarize、compress、RAG 等)
 Enhance planning capabilities (load website specific context)
增强规划功能(加载网站特定上下文)
 Reduce token consumption (system prompt, DOM state)
减少 Token 消耗(系统提示符、DOM 状态)
DOM Extraction  DOM 提取
 Improve extraction for datepickers, dropdowns, special elements
改进日期选择器、下拉列表、特殊元素的提取
 Improve state representation for UI elements
改进 UI 元素的状态表示
Rerunning tasks  重新运行任务
 LLM as fallback  LLM作为 fallback
 Make it easy to define workflow templates where LLM fills in the details
轻松定义工作流模板,其中LLM填写详细信息
 Return playwright script from the agent
从代理处返回 playwauthor 脚本
Datasets  数据
 Create datasets for complex tasks
为复杂任务创建数据集
 Benchmark various models against each other
将各种模型相互进行基准测试
 Fine-tuning models for specific tasks
针对特定任务微调模型
User Experience  用户体验
 Human-in-the-loop execution
人机交互执行
 Improve the generated GIF quality
提高生成的 GIF 质量
 Create various demos for tutorial execution, job application, QA testing, social media, etc.
为教程执行、工作申请、QA 测试、社交媒体等创建各种演示。

五、软件下载

夸克网盘分享

本文信息来源于GitHub作者地址:https://github.com/browser-use/browser-use

<think>好的,用户想知道如何在浏览器中使用Ollama。首先,我需要回忆一下Ollama的基本信息。Ollama是一个本地运行大型语言模型的工具,支持多种模型如Llama 3、Mistral等。用户想在浏览器中使用,可能需要通过Web界面或者API调用的方式。 接下来,我需要考虑用户可能的操作步骤。通常,Ollama本身是命令行工具,但可以通过安装扩展或搭配其他工具如Open WebUI来提供浏览器界面。例如,Open WebUI是一个源项目,能够与Ollama集成,提供类似ChatGPT的界面。 然后,我需要验证这些步骤是否正确。比如,安装Ollama后,使用Docker运行Open WebUI,并确保配置正确,将Ollama的API地址指向本地。同时,用户可能需要安装Node.js环境,或者使用浏览器扩展程序直接连接本地Ollama服务。 另外,还要考虑常见问题,比如端口配置是否正确,是否安装了必要的依赖项,以及如何访问本地服务。可能还需要提到如何通过Docker命令启动服务,并设置环境变量指向Ollama的地址。 最后,生成相关问题时,需要涵盖安装配置、模型加载、常见错误处理、安全措施以及与其他框架的整合,这样用户能全面了解在浏览器中使用Ollama的各个方面。</think>### 如何在浏览器中使用Ollama Ollama 是一个支持本地运行大型语言模型(LLM)的工具,通过以下步骤可在浏览器中使用: --- #### **步骤1:安装Ollama** 1. 访问 [Ollama官网](https://ollama.ai/) 下载对应操作系统的安装包 2. 安装完成后,在终端运行: ```bash ollama serve ``` 这会启动本地服务(默认端口`11434`)[^1]。 --- #### **步骤2:安装浏览器交互工具** 推荐使用 **Open WebUI**(源项目)提供浏览器界面: ```bash # 使用Docker运行Open WebUI docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main ``` 访问 `http://localhost:3000` 即可通过浏览器操作Ollama。 --- #### **步骤3:加载模型** 在终端下载所需模型(如Llama 3): ```bash ollama pull llama3 ``` --- #### **步骤4:浏览器交互** 在Open WebUI界面中: 1. 选择已下载的模型(如`llama3`) 2. 直接在输入框提问,例如: ``` 如何用Python实现快速排序? ``` --- #### **替代方案:浏览器扩展** 1. 安装支持Ollama的浏览器扩展(如`Ollama WebUI`) 2. 配置扩展指向本地`http://localhost:11434` 3. 直接通过扩展界面调用模型 --- #### **验证连接** 访问 `http://localhost:11434`,若返回Ollama的API文档说明服务已正常运行。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值