企查查爬虫获取公司链接

import openpyxl
import requests  # 模拟请求
import pandas as pd  # 清洗数据
from bs4 import BeautifulSoup

#打开目标execl,这里注意openpyxl能读取的execl后缀名是'.xlsx'文件
workbook1=openpyxl.load_workbook('xxx.xlsx')
#选定目标sheet
worksheet1 = workbook1.active
**# 请求头**
headers = {
    # 把xxxx 换成自己浏览器中参数信息
    "user-agent":"xxxxxx",
    "referer": "xxxx",
    "sec-fetch-mode": "xxxx",
    "sec-fetch-site": "xxxx",
    "cookie": "xxxx",
}
ko = []
**# 循环获取 B 列**
for cell in worksheet1['B']:
    # print(cell.value)
    # 路径
    url = 'https://www.qcc.com/web/search?key=' + cell.value
    # 模拟请求网页
    html_text = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html_text, 'html.parser')
    # 循环获取div
    for ks in soup.find_all('div', {'class': 'maininfo'}):
        # print(ks.span.text)
        # 追加到ko数组 中
        ko.append([ks.span.text, ks.a['href']])
        # print(ks.a['href'])
        break
print(ko)
# 保存的标题
title = ['公司名称', '公司链接']
# 保存的数据
table = pd.DataFrame(ko, columns=title)
# 保存路径  如E:/xxxxx.xlsx  设置保存路径
table.to_excel('xxxx.xlsx', sheet_name='sheet1')


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值