
爬虫
瓶瓶罐罐的
一个热爱编程的女程序员,专注于web 开发,爬虫,大数据采集,处理
展开
-
常见反爬策略攻略
基于python 一般常见的反爬策略1 常见的请求方式 requests 一般都是脚本或者scrapy ,建议使用脚本 直接requests 请求就可以,scrapy 太重了2 规则使用xpath pyquery 个有个的好处,看自己需要哪种3 一般的2 to 2 网页 添加代理 ,加上超时 时间,添加headers 都能采集下来4 有些网站反爬措施稍微厉害,需要你获取cookies ,一步一步的找规律 例如搜狗微信的采集是要请求多个url 拿到里面的sunid 再通过 sunid 根据重原创 2021-03-31 14:13:09 · 241 阅读 · 0 评论 -
3proxy+tinydns 设置代理服务
1 准备一台linux 服务器,公网访问;python3 环境,python2 也ok(没人用python2了)2 安装3proxy yum install 3proxy 如果yum 查看没有,需要安装yum 源:yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm3 配置 /etc/3proxy.cfg 文件cp 3proxy.cfg 3proxy.cfg-arrm -rf 3p原创 2020-06-13 09:30:57 · 1407 阅读 · 0 评论 -
python 爬取微博关键词搜索
# coding:utf-8import reimport randomimport requestsimport timeimport hashlibimport jsonimport MySQLdbimport multiprocessingfrom django.utils.http import urlquotemysql_config = {"host": "*****8", "port": ,原创 2020-05-22 16:42:33 · 3717 阅读 · 4 评论 -
python 爬取搜狗微信关键词
# -*- coding: utf-8 -*-import randomimport requestsfrom pyquery import PyQuery as pqfrom urllib.parse import urlencode, quoteimport uuidimport timeimport reimport timeimport hashlibfrom utils.img_to_tencent import img_to_tencentdef md5(str):原创 2020-05-22 16:35:57 · 1215 阅读 · 1 评论 -
python 爬取今日头条关键词搜索
使用python 获取今日头条的关键词的文章使用进程池代码如下:# -*- coding: utf-8 -*-import requestsimport randomimport requestsimport jsonimport timeimport hashlibfrom utils.img_to_tencent import img_to_tencentdef md5(str): return hashlib.md5(str.encode('utf-8')).he原创 2020-05-22 16:31:45 · 2405 阅读 · 2 评论 -
5分钟 学会scrapy 爬虫框架
创建一个scrapy 项目定义提取的item编写网站的spider 并提取item提取数据保存到数据库#创建项目 scrapy startproject bmlink![会显示这样的,scrapy.cfg :项目的配置文件bmlink :python 模块items.py item 文件pipelines.py 管道#定义item保存爬取数据的容器import s...原创 2018-10-11 11:23:27 · 461 阅读 · 0 评论