python爬取天眼查数据(未破解图片验证及ajax版)

本文演示了如何使用Python爬取天眼查网站上的公司信息,包括公司名称、法人、注册时间、电话和邮箱等,并解析HTML内容获取详细数据。虽然未解决图片验证码和AJAX版数据,但提供了基本的爬虫框架。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import time
import requests
from bs4 import BeautifulSoup
import lxml
import json
import copy
import csv

company_base_url = 'https://www.tianyancha.com/search?key='
search_list = [] #搜索空间
result_dir = 'D:/5-Python/爬虫/data/'
headers = {
   #Chrome抓取
}
cookies = {
    #Chrome抓取
}
target_data_frame = {
    'company_name' : '',
    'human_name' : '',
    'regist_time' : '',
    'telephone' : '',
    'email': '',
    'main_members' : ''
}
search_result = []
proxies = {
    "http" : '182.34.21.124:41873',
    "http" : '218.73.135.14:27182'
}

def get_member(main_member_index, id_str, company_detail_url, main_members):
    main_member_page = main_member_index.find(name='div', id=id_str)
    if (main_member_page.find(name='div', class_='company_pager')):
        pass
    else:
        main_member_contents = main_member_page.find_all(name='a', class_='link-click')
        for main_member_content in main_member_contents:
            main_members.append(main_member_content.text)
 
def get_main_member(company_detail_url):
    print (company_detail_url)
    company_detail_index = requests.get(company_detail_url, headers=headers, cookies=cookies, proxies=proxies)
    if (company_detail_index):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值