爬取顺企网商户联系方式

最新推荐文章于 2024-04-22 21:29:14 发布

原创

最新推荐文章于 2024-04-22 21:29:14 发布 · 7.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

本文讲述了作者在暑假实习期间使用Python爬虫爬取顺企网企业联系方式的经历，包括如何解决频繁访问限制和图片形式的手机号码识别问题。通过分析网站机制，成功实现了模拟点击跳过验证和通过手机号码在图片URL中的规律直接提取号码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

暑假实习的时候，老板让收集北上广深公司的联系方式，最好是email或者手机。鉴于老板不想花钱，就拜托本菜鸟写爬虫，去爬取各色B2B网站企业信息。

现在的时代，数据就是金钱，各大网站是不可能让你轻而易举爬走数据滴，即使这些数据都是开源的。常见的反爬手段包括禁止频繁访问，将手机号码转换成图片显示。有些丧心病狂的网站，反爬工程师每月拿2万大洋，让萌新瑟瑟发抖。

顺企网是个比较有意思的网站（截图如下）（从爬虫角度来说），且听我细细道来。

1）解决频繁访问

博主尝试过每发送一次请求，休息2秒，然而在300-400个请求后被拒绝，爬虫光荣阵亡。出离愤怒的博主，将出错的url通过浏览器访问，返回以下界面。

手动点击“点击继续”这个超链接后，即可跳转到需要的公司信息界面，正常访问（发送请求）。

由于要获取的企业数量在万级，必须要解决这个因频繁访问被验证非机器人的问题。

最直接的思路

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小宁什么都不懂

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

利用R通过顺企网根据公司名称爬取企业地址

qingchen98的博客

08-03

4093

利用R通过顺企网根据公司名称爬取企业地址有时我们有公司名称数据但是没有地址，需要根据公司名称找出企业的地址，描述其空间布局，如果数据量很大，手动在网页中操作费时费力，R语言提供了一个解决的办法，前提是该网站能够与机器交互（即没有反爬机制，或者有但限制较小）。其过程如下 1. 首先读取数据并作简单处理打开顺企网检索某个公司发现其链接是以下形式，其特征是字符串+“公司名称”构成了一个完整的链接因此可以对每个公司名称构建url地址，然后根据url地址获取页面信息 #library packeges &g

Python访问天眼查

weixin_39465984的博客

07-11

1万+

Python访问天眼查，浏览器获取cookie，爬虫的雏形

5 条评论您还未登录，请先登录后发表或查看评论

2024年Python大厂面试，Python利用百度地图抓取商家地址_百度地图爬取 cid，被面试官问的Python-Framework难倒了

2301_79985012的博客

04-22

485

背景：有的时候我们需要批量获取这个城市某个行业的全部商家信息，以便打电话调研行业信息，一个个查询，效率太低，如果能够批量获。取商家地址和联系方式的信息会事半功倍。我们先看一下全部的Python语句。

企业/公司老板联系方式如何获得比较精准的？

Enterprisbigdata的博客

11-23

2426

虽然目前有很多平台都可以查到企业的基本信息，像企*查，天*查，爱*查等，这些平台虽然成本不高，但是从这些平台找到的很多联系方式都不够精准，质量不高。如果您平均每单几千元或者上万，您需要批量地获取潜在客户的老板电话，不论从成本，还是从效率角度，都需要有更靠谱的方法来支持。），先从企*查上导出大量企业基本信息，然后找客服，通过匹配筛选电话号码是不是我们想要的老板号，从而精准获得企业联系方式。很多号码要么是固号，要么空号，要么代理记账公司的预留号码，想要找打关键联系人，即老板的电话很难。

企业数据(从天眼)抓取

追求卓越，成功就在不经意间追上你

03-09

2014

亲自实践天眼数据抓取,以平安数据为例两类数据 -一从html中直接获取 java可以使用jsoup实现会用正则表达式,jsoup中会使用jquery的选择器. python可以使用scrapy -二,ajax请求直接返回json格式专业数据抓取QQ:3684170(各种企业信息数据比赛实时数据专利数据等各种类型数据.)

使用requests库爬取1688联系方式数据

qq_53917091的博客

10-26

1269

菜

【5-1】获取目标企业的法人等信息

铁盒薄荷糖的博客

02-01

965

在搜索栏输入企业的完整名称，如“北京知乎科技有限责任公司”，观察搜索结果的地址有什么规则。发现规律，地址栏后面是要搜索的公司名称。、打开这个公司的链接，同样观察地址有什么规律。发现规律，通过一串数字来对应该公司。同时在不登陆天眼查的情况下，可以看到了网址。、分析网址的这一串数字从哪里来的。复制这个数字，在上一个网页的源码中去找。定位到公司介绍的链接地址，注意要做公司名的完整匹配。、分析该网页源码，发现关键字法定代表人 “就能匹配到唯一的网址。获取新链接页面的源码，通过关键。可以定位到我们想要的公司网址。

shunqiwang_by_scrapy:利用scrapy框架爬取顺企网企业的工商信息

04-27

shunqiwang_by_scrapy 利用scrapy框架爬取顺企网企业的工商信息

利用爬虫爬取看看豆网站站的数据信息

XiaoDong的博客

11-25

7234

其实很早我就开始关注爬虫技术，这两天特别学习了一下，并且做了一个简单的demo。爬取了看看豆网站的数据信息。总共11751本书，爬取了不到3个小时，基本每秒爬取1条。速度慢的原因主要是单线程，使用mysql数据库。想要提高速度的话可以使用多线程和redis。但是对于初学者来说只要能爬取下来就很不错了。在这里我使用了一个爬虫框架---phpspider。爬取完成后，我把数据从数据库中导成.csv

Python 爬取企查查数据

热门推荐

sansan512的博客

11-15

3万+

由于工作需要，爬取企查查数据，在前人的基础上做了修改，可以爬全部的数据，代码如下： #-*- coding-8 -*- import requests import lxml from bs4 import BeautifulSoup import xlwt import time def craw(url,key_word): User_Agent = 'Mozi

python爬取企查查公司工商信息

01-16

爬取企查查网站上公司的工商信息，路径大家根据自己情况自行修改，然后再在工程路径下创建个company.txt，里面输入想要爬取的公司名，就会生成该公司的工商信息网页。

企查查网站信息爬取1.0版

成功唯有积累，没有奇迹。

11-24

5600

1.0版本中，并未对验证码进行处理，在遇到验证码问题时，提示等待并手工解决 import requests from lxml import etree import pandas as pd import time # 第一步:定义基本信息,url,headers,cookies # url = 'https://www.tianyancha.com/company/2358517846' c...

爬取动态网站阿里巴巴（1688）商家公司名称及联系方式

郭建鹏的博客

10-21

1万+

爬取动态网站阿里巴巴（1688）商家信息文章目录爬取动态网站阿里巴巴（1688）商家信息（一）爬虫需求：1.目标网站：[阿里巴巴](https://s.1688.com/)2. 爬取阿里巴巴网站上供应商的商家的联系电话3.爬虫难点（二）爬虫思路解析，攻克反爬障碍！2.1 攻克淘宝的验证登录（一）爬虫需求： 1.目标网站：阿里巴巴 2. 爬取阿里巴巴网站上供应商的商家的联系电话公司名称在输入关...

网络爬虫——抓取时的几个小细节

qianfeng_dashuju的博客

07-04

554

　　这一篇我们聊聊在页面抓取时应该注意到的几个问题。　　一：网页更新　　我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多长时间需要　　抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成压力。　　就比如说我要抓取博客园首页，首先清空页面缓存，　　 ...

电话信用标记数据的爬虫

大数据挖掘SparkExpert的博客

06-02

2090

一直以来，相信很多人会接到许多诈骗电话的。因此也催生了一些电话标记软件。最近在分析一些数据的过程中，需要寻找这些标记数据，才发现是没有办法下载到的。想想只能靠爬虫了。偶然的机会，发现一些地方还是有接口。。分析了百度，360，腾讯这些手机终端卫士软件的数据结果，发现360的效果是比较好的。可能是用户基数相对较多吧。而百度因为是做爬虫起家的，其数据中还能出现触宝或者

爬取静态网站信息公司名称以及电话

郭建鹏的博客

04-07

1944

文章目录爬虫需求：需要爬取的网站 [目标网站](http://shop.jc001.cn/r1-231/?p=1)爬取内容：需要爬取网站的公司名称以及电话该网站有6000多条信息爬虫思路解析1.封装函数获取网站所有页码2.通过获取页面的url去解析获取每一个详情页的url3.网站详情页请求以及解析3.1详情页请求函数3.2详情页解析函数（解析需要内容，并存储）3.3详情页解析总函数UA伪装以及代理...

用Python爬虫获取百度企业信用中企业基本信息！太厉害了！

爬遍所有网站

08-11

6652

一、背景希望根据企业名称查询其经纬度，所在的省份、城市等信息。直接将企业名称传给百度地图提供的API，得到的经纬度是非常不准确的，因此希望获取企业完整的地理位置，这样传给API后结果会更加准确。百度企业信用提供了企业基本信息查询的功能。希望通过Python爬虫获取企业基本信息。目前已基本实现了这一需求。本文最后会提供具体的代码。代码仅供学习参考，希望不要恶意爬取数据！二、分析以苏宁为例。输入“江苏苏宁”后，查询结果如下：经过分析，这里列示的企业信息是用JavaScript动态生成的。服务

学习爬虫第二天：继续爬公司内部的通讯录

Cyber的博客

11-06

3910

import requests from bs4 import BeautifulSoup import re #首先通过chrome获得headers，包括user-agent和cookie headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gec...

python爬虫爬取爱企查公司信息

weixin_45329040的博客

11-25

1万+

python爬虫、爬取爱企查公司信息、投机取巧

顺企网python爬取