
爬虫
StarLord007
这个作者很懒,什么都没留下…
展开
-
python爬虫练习之爬取豆瓣读书所有标签下的书籍信息
第一步,爬取所有图书标签及分类 到达图书标签页,分类浏览,第一步需要爬取所有分类及其分类下的所有标签 并用dict存储原创 2018-07-23 18:57:01 · 6931 阅读 · 0 评论 -
Requests库爬取页面乱码问题(以脚本之家为例)
爬取脚本之家python文章列表,发现中文乱码import requestsfrom bs4 import BeautifulSoupurl = 'https://www.jb51.net/list/list_97_1.htm'response = requests.get(url)html = response.textsoup = BeautifulSoup(html,'lxm...原创 2018-09-25 10:35:29 · 1746 阅读 · 0 评论 -
Pyquery库整理
初始化from pyquery import PyQueryhtml = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html&原创 2018-09-13 19:38:49 · 168 阅读 · 0 评论 -
12306爬取过郑州所有列车信息(一)
selenium库是用来做自动化测试的,爬虫用它解决JavaScript渲染问题,一般的Ajax请求不需要它,但是JS加密的还是这种方式比较好,只要能看到,就能抓到需要安装selenium库,chrome浏览器,chromedriver浏览器驱动使用from selenium import webdriverq = webdriver.Chrome()q.get('h...原创 2018-09-18 22:01:54 · 1260 阅读 · 0 评论 -
BeautifulSoup库整理
BeautifulSoup是一个很好用很常用的解析库支持解析器:Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差lxml HTML 解析器 BeautifulSoup(markup, “lxm...原创 2018-09-13 11:34:19 · 300 阅读 · 0 评论 -
正则表达式解析抓取猫眼电影Top100
猫眼电影提供实时票房数据,这个以后玩榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。第一步,分析URL,一共有10页,每页10个,观察URL得http://maoyan.com/board/4?offset=0 最后一个数字为增量,每次加10,第一页为0#构造10页的地址base_url...原创 2018-09-12 17:52:34 · 1333 阅读 · 0 评论 -
代理池篇(三)用Falsk创建接口
关于代理的抓取以及代理的清洗,使用多线程以及异步,对于数据库的操作都有非常大的优化空间,但是接口没什么好优化的,简单的写一个,服务器上WSGI跑起来即可用Flask创建简单接口,访问数据库在此,没有对代理进行评分,优化清洗时可以对代理进行评分,加入数据库中Flask的创建极为简洁from flask import Flaskfrom redis import Redi...原创 2018-09-17 17:16:31 · 325 阅读 · 0 评论 -
爬虫用到的正则
我觉得爬虫所用到的正则表达式,只需熟练灵活的掌握 .*? 即可无论你是解析单个数据,还是解析所有符合条件的数据,一般正则使用 .*? 配合着网页中的字符串就够用了Some exercisesimport rehtml = '''<div id="songs-list"> <h2 class="title">经典老歌</h...原创 2018-09-12 17:32:42 · 622 阅读 · 0 评论 -
Requests库整理
基于urllib库实现,简单易用#简单好用import requestsres = requests.get('http://www.baidu.com')print(res)print(res.text)print(res.status_code)print(res.cookies)一、基本get请求1.普通请求直接get2.带参数的import reque...原创 2018-09-12 16:50:40 · 185 阅读 · 0 评论 -
Urllib库整理
优点,python内置库,无需额外安装,但是确实不如requests库,我平时做练习就不用这个库包含模块1.urllib.request 请求模块2.urllib.erro 异常处理3.urllib.parse URL解析4.urllib.robotparser robots.txt解析Urllib库的request模块...原创 2018-09-12 15:55:52 · 190 阅读 · 0 评论 -
爬虫原理篇流程方法概述
原理篇一、爬虫的流程1.发起请求,通过HTTP库向目标站点发起请求,及发送一个request,可以包含headers等信息2.获取响应内容,如果正常响应,会得到一个response,其内容便是我们要获取的内容页面,可能有HTML,json,图片视频等格式内容3.解析内容,若得到HTML,则使用正则,bs4等进行解析,若是json,直接转换为json对象解析,若是二进制数...原创 2018-09-12 12:07:49 · 1683 阅读 · 0 评论 -
代理池篇(二)简单代理清洗程序
此为第二步,将得到的代理进行清洗,将可用的入库简单清洗程序原理:多线程跑检测代理,源数据从数据库中取出,反正 Redis可每秒取数据11万次,一定要多线程,这里主要网络请求占用时间长,所以多线程,我也不知道多少是个多,自己试吧import requests,threading,timefrom redis import Redisredis = Redis(host='12...原创 2018-09-15 20:49:54 · 401 阅读 · 0 评论 -
代理池篇(一)获取66免费代理网+西刺代理
66免费代理网分析:曾经尝试过网站提供的提取,用正则爬下来后当时正常,过两天数量异常于是,采用正规手段,分页抓取,抓取1300页,对每页进行分析为此,构造正则表达式即可#代理66import requests,refrom redis import Redisredis = Redis(db=7)def craw_66ip(): url = 'ht...原创 2018-09-15 20:35:01 · 76810 阅读 · 3 评论 -
python爬虫小练习之一:bs4库基础爬信息
任务 爬取该网页商品的名称,图片地址,价格,阅读人数,星级评价 使用bs4库,用到css selecter, xpath以后会用到 select地址:f12,找到标签,右键复制select地址name: body &gt; div:nth-child(2) &gt; div &gt; div.col-md-9 &gt; div:nth-child(2) &gt; div:nth-...原创 2018-02-22 10:28:57 · 2485 阅读 · 0 评论 -
python爬虫小练习之二:bs4库以及遇到的问题
简单爬取猫途鹰旅游网信息 [https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html] 内容就是这样的,爬取标题,图片地址,以及标签下面代码from bs4 import BeautifulSoupimport requestsurl = 'https://ww...原创 2018-02-22 12:03:03 · 2456 阅读 · 0 评论 -
python爬虫小练习之三:requests库小练习(糗事百科最最最基础)
As we all know,糗事百科有反爬机制,必须要模拟真实浏览网址:糗事百科也就是要用到cookie啊,user—agent之类的东东requests 库可以完全模拟所有情况 这里只用最基础的get形式,这就够了来来来,最小爬虫from bs4 import BeautifulSoupimport requestsurl = 'https://www.qiushi...原创 2018-02-22 14:08:25 · 2263 阅读 · 0 评论 -
python爬虫小练习之四:糗事百科第二次,多页爬取
遇到的问题是变量更新问题,python总能给我惊喜糗事百科文字区,竟然只有13页from bs4 import BeautifulSoupimport requestsimport time url_num = 1 #记录是第几页,也是URL的参数#问题来了,URL写在循环外面的话,在循环里面调用的时候竟然不会自己更新,#也就是说,每次都是第一页,也就是说,一个str()把...原创 2018-02-25 20:35:35 · 2257 阅读 · 0 评论 -
python爬虫小练习之五:requests库小练习(58同城2手手机简单)
北京58同城二手手机页面-商家要获取商家所有页面的单个链接,然后进入链接获取内容 图片可能也是做了反爬机制,爬取不到,太菜了..代码from bs4 import BeautifulSoupimport requestsimport time #导入库#-------------------------------------------------------...原创 2018-02-25 21:26:41 · 2330 阅读 · 0 评论 -
Selenium用法笔记(解决动态渲染页面)
Selenium库,主要用来做自动化测试,爬虫中用来解决JavaScript渲染的问题需要安装selenium库,以及浏览器的驱动(Chrome浏览器安装ChromeDriver)所有的WebDriverAPI一、基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom sele...原创 2018-09-25 19:05:01 · 6206 阅读 · 0 评论