这里临时快速写出来的简陋代码,能实现简单的功能
我找到了天眼查、企查查和国家企业信用信息公示系统这三个可以获取企业工商信息的网站
一开始是想要从’国家企业信用信息公示系统’入手的,可惜我对js的代码不是能熟悉,
花了大把时间在__jsl_clearance的获取和’点按后选字’验证码上面,
最后还是没有成功
然后转向了’企查查’
我为了不被ip封禁而设置了time.sleep
并且我没有太多的ip代理,所以就没有添加多线程(免费代理成功率是真的低)
主要想法:
从其他网站获取’公司名称’,然后在’搜索栏’进行搜索,
在搜索后的页面上对每个企业链接进行深度爬取,最后输出信息
import requests
from lxml import etree
from bs4 import BeautifulSoup
import time
companies='''
阿里巴巴(中国)有限公司
中国工商银行股份有限公司
中国建设银行股份有限公司
中国平安保险(集团)股份有限公司
华为投资控股有限公司
'''
cp_list=companies.strip().split('\n')
print(cp_list)
#search=input(