
爬虫学习
一些新学习的爬虫知识
杨鸿儒
做自己喜欢的事。
展开
-
parsel模块
parsel模块用于爬虫中解析网页该模块可以使用xptah,css,re对获取到的str类型的内容进行匹配import parselimport requeststext = request.get("....").text()sel = parsel.Selector(text)names = sel.xpath().getall() #以list的形式返回所有匹配到的元素na...原创 2020-03-19 15:53:22 · 2588 阅读 · 0 评论 -
建立自己的ip池
换ip是使用爬虫不可避免的一部分,建立属于自己优质的ip池可以大大提高我们的效率下面是一个非常简单的一个版本,初步了解一下ip池的建立流程,以后还会继续更新import requestsfrom lxml import etreeimport pymysqlconn = pymysql.connect() #连接数据库cursor = conn.cursor()url = "h...原创 2020-03-12 21:44:08 · 806 阅读 · 0 评论 -
聚合代理的使用
import requestsimport jsondef agent_ip(num): #num表示的是要获取的代理的个数 url = "http://daili.spbeen.com/get_api_json/?token=Dg7VoDLMw3w51igDtim1POD2&num=1".format(num) response = requests.get(...原创 2019-10-15 08:02:39 · 432 阅读 · 1 评论 -
模拟登录知乎:利用selenium接管浏览器
本文借鉴于:https://www.cnblogs.com/lovealways/p/9813059.html我们先使用浏览器登录退出知乎,电脑上还带着知乎的cookie,所以我们模拟登录的时候就可以跳过验证码(手动滑稽)原理:我们使用selenium中的webdirver打开的浏览器没有浏览器记录,也就是最纯净的浏览器,所以也不会携带cookie之类的信息,但是我们使用selenium接管浏...原创 2019-10-15 10:38:26 · 1117 阅读 · 0 评论 -
xpath的学习
Xpath学习在利用爬虫爬取数据时,为了更快更高效的解析html中数据,我们来学习Xpath,我们可以姑且将它理解为在html中查找信息的语言1.节点简单来说,一个标签,属性都是一个节点,我们一般上只说标签为节点,eg:获取div元素,我们说获取到div节点其实Xpath的核心就是通过各种语法准确的选取多个和单个节点,从而获取想要的数据另外,整个html文档开始的节点是节点之间的关系...原创 2019-08-25 21:57:58 · 187 阅读 · 0 评论 -
pygal将数据可视化
我们使用pygal可以将数据转化成各种各样的图标,比数据库的表更有表现力pygal文档: http://pygal.org/en/stable/我们将赶集网爬取到的租房数据按照装修方式进行可视化import pygalfrom sqlalchemy import create_engineengine = create_engine("sqlite:///ganji_zufang",e...原创 2019-08-22 13:31:10 · 478 阅读 · 0 评论 -
ajax数据抓取
我们有时在对网站数据进行抓取的时候,返现页面源码内容只有写js代码,并没有数据,或者我们在一个页面点击下一页页面不会刷新,数据直接就出来了,这些都使用了ajax技术。ajax详解:https://blog.youkuaiyun.com/DreamWeaver_zhou/article/details/76790588Ajax对应特殊的请求类型:xhr,我们可以在浏览器的调试工具中进行筛选,我们使用pyth...原创 2019-09-08 16:05:21 · 1179 阅读 · 0 评论 -
sqlite3数据库表的步骤
进入命令行import sqlite3zufang = sqlite3.connect("zufang.sqlite")#创建zufang数据库create_table = "create table zufang(name varchar(512),price varchari(256)))"#编写创建表的sql语句zufang.execute(create_table)#执行创建...原创 2019-09-23 12:35:49 · 212 阅读 · 0 评论 -
selenium的学习
selenium学习借助selenium,模拟浏览器,可以直接获取到动态渲染的页面的源代码,做到可见即可爬1.唤起浏览器from selenium import webdriverbrowser = webdriver.Chrome() #谷歌浏览器browser = webdriver.Firefox() #火狐浏览器browser = webdriver.Ie() #Ie浏览器...原创 2019-09-27 15:24:53 · 162 阅读 · 0 评论