日常学习|从企查查获取企业工商信息

本文介绍了使用Python进行企查查网站的企业工商信息爬取,由于对JavaScript处理不熟悉,作者放弃了国家企业信用信息公示系统的爬取。在企查查的爬取过程中,为避免IP被封禁,加入了time.sleep延迟,并考虑到免费代理的低成功率,未采用多线程。主要流程是从外部获取公司名称,通过企查查搜索并深度爬取企业链接,最终提取并输出信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里临时快速写出来的简陋代码,能实现简单的功能
我找到了天眼查、企查查和国家企业信用信息公示系统这三个可以获取企业工商信息的网站
一开始是想要从’国家企业信用信息公示系统’入手的,可惜我对js的代码不是能熟悉,
花了大把时间在__jsl_clearance的获取和’点按后选字’验证码上面,
最后还是没有成功
然后转向了’企查查’
我为了不被ip封禁而设置了time.sleep
并且我没有太多的ip代理,所以就没有添加多线程(免费代理成功率是真的低)

主要想法:
从其他网站获取’公司名称’,然后在’搜索栏’进行搜索,
在搜索后的页面上对每个企业链接进行深度爬取,最后输出信息

import requests
from lxml import etree
from bs4 import BeautifulSoup
import time

companies='''
阿里巴巴(中国)有限公司
中国工商银行股份有限公司
中国建设银行股份有限公司
中国平安保险(集团)股份有限公司
华为投资控股有限公司
'''

cp_list=companies.strip().split('\n')
print(cp_list)

#search=input(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值