python爬虫和用腾讯云API接口进行翻译并存入excel,通过本机的Windows任务计划程序定时运行Python脚本!

项目场景:

提示:这里简述项目相关背景:定时爬取外网的某个页面,并将需要的部分翻译为中文存入excel

接下了的,没学过的最好看一下

基本爬虫的学习

【爬虫】requests 结合 BeautifulSoup抓取网页数据_requests beautifulsoup 在界面中选取要抓取的元素-优快云博客

问题描述 一:

提示:这里描述项目中遇到的问题:

基本爬虫的学习的例子为例,换到你自己想要的url 运行不了 

 原因分析 一:

程序使用一段时间后会遇到HTTP Error 403: Forbidden错误。 因为在短时间内直接使用Get获取大量数据,会被服务器认为在对它进行攻击,所以拒绝我们的请求,自动把电脑IP封了。 

 解决方案 一:

我就不细讲了,看懂别人的就行:

python 爬虫禁止访问解决方法(403)_爬虫加了请求头还是403错误-优快云博客

  我的是这样的

import random
import time


import requests
from bs4 import BeautifulSoup

url = "https://pubmed.ncbi.nlm.nih.gov/"

# List of user-agent strings
my_headers = [
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
    'Opera/9.25 (Windows NT 5.1; U; en)',
    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
    "Mozilla/5.0 (X11; Linux i686) App
### 如何使用 Python 调用腾讯云 API 调用腾讯云 API 的基本流程可以分为以下几个部分: #### 1. 注册并获取密钥 在调用任何腾讯云 API 前,需要先注册腾讯云账号,并创建访问密钥(SecretId SecretKey),这是用于身份验证的重要凭证[^5]。 #### 2. 安装依赖库 为了简化开发过程,建议安装 `tencentcloud-sdk-python` 库。可以通过 pip 工具轻松安装该 SDK: ```bash pip install tencentcloud-sdk-python ``` #### 3. 配置认证信息 在代码中配置 SecretId SecretKey 来完成身份验证。以下是简单的初始化示例: ```python from tencentcloud.common import credential from tencentcloud.common.profile.http_profile import HttpProfile from tencentcloud.common.profile.client_profile import ClientProfile import tencentcloud.cvm.v20170312.cvm_client as cvm_client cred = credential.Credential("your-secret-id", "your-secret-key") # 替换为实际的 SecretId SecretKey http_profile = HttpProfile() http_profile.req_method = "POST" http_profile.scheme = "https" client_profile = ClientProfile() client_profile.http_profile = http_profile client = cvm_client.CvmClient(cred, "ap-guangzhou", client_profile) # 地域参数可替换为目标区域 ``` 上述代码展示了如何设置 HTTP 请求方式以及指定地域。 #### 4. 发送请求 以查询 CVM 实例列表为例,展示如何构建发送请求: ```python request = cvm_client.models.DescribeInstancesRequest() params = '{"Limit": 10}' # 设置请求参数 request.from_json_string(params) response = client.DescribeInstances(request) print(response.to_json_string()) ``` 此代码片段演示了如何通过 JSON 字符串传递参数给 API 接口,并打印返回的结果。 对于其他类型的 API,比如 OCR 图片文字识别,则需参照具体接口文档调整请求结构[^1]。 #### 5. 处理异常情况 在真实环境中应考虑错误处理机制,捕获可能发生的异常以便更好地调试程序: ```python try: response = client.DescribeInstances(request) print(response.to_json_string()) except Exception as e: print(e) ``` 需要注意的是,在某些情况下,如果遇到鉴权失败等问题,可能是由于时间戳不匹配或签名算法有误引起的,此时应该仔细核对官方指南中的每一步骤。 --- ### 注意事项 - 如果目标是语音识别或其他特定领域服务,请查阅对应模块的具体说明文档[^3]。 - 对于更高版本 Python 用户来说,虽然当前提到腾讯提供的正式 SDK 主要针对 Python 2.7 版本设计,但实际上大部分功能同样适用于 Python 3.x 环境下运行;不过仍推荐直接参考最新版 SDK 或者手动编写适配器来满足需求[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值