
python数据采集
python数据采集、爬虫。
Jalen data analysis
数据分析学者和从业人员
展开
-
python3爬虫(8)--动态渲染页面使用Selenium库模拟浏览器抓取数据
在使用Ajax采集数据时,有些Ajax接口含有很多的加密参数,直接很难发现规律。此时,就可以使用模拟浏览器运行的方式来采集。Python 提供了许多模拟浏览器运行的库,如Selenium、Splash、PyV8、Ghost等。一、模拟浏览器爬取数据Selenium的使用。1.1、安装准备工作安装selenium库:pip install selenium(1)、谷歌(Chrome)...原创 2020-01-26 14:58:02 · 2470 阅读 · 0 评论 -
python3爬虫(7)--使用pyquery的CSS选择器(Selectors)解析数据
在利用python进行就网页数据采集时,为们往往通过urllib或requests发送请求,返回的数据结构是json格式的,我们就使用json解析;其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中,pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CS...原创 2020-01-24 13:17:23 · 2639 阅读 · 0 评论 -
python3爬虫(6)--使用Beautiful Soup解析数据
1、基础概念前言:Beautiful Soup 就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。Beautiful Soup 已成为和lxml、html6lib一样出色的Python解释器,为用尸灵活地提供不同的解析策略或强劲的速度。Beautiful Soup 自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。Beaut...原创 2020-01-23 16:29:00 · 1370 阅读 · 0 评论 -
python3爬虫(5)--构造随机User-Agent池、构造免费随机ip池、常见异常处理
利用python进行数据采集的过程中,很多网站都设置了反爬虫机制,其中最常见的就是相同的User-Agent、ip或者Cookie不能连续进行数据采集,所以我们需要构建很多User-Agent、ip或者Cookie以防止被封停。同时批量采集数据时会出现很多常见异常。1、构造有很多方法,这里我们就将众多的User-Agent和ip存在csv文件中,供我们数据采集的时候使用。2、代理ip请求失...原创 2020-01-21 19:48:25 · 1758 阅读 · 2 评论 -
python3爬虫(4)--使用XPath(lxml)解析数据(27种典型的爬虫匹配用法)
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。所以在做爬虫时,我们完全可以使用XPath来做相应的信息抽取。一、XPath的几个常用规则。表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // ...原创 2020-01-20 01:12:20 · 1306 阅读 · 0 评论 -
python3爬虫(3)--解析json数据
环境:python31、前言:在做数据采集的过程中,我们经常遇到json格式的数据,如有道翻译就是json格式的数据。在使用requests库进行请求时,我们可以直接使用json()方法,将字符串格式的json数据转化为字典格式,然后利用字典的键-值索引和列表索引配合使用解析json数据或者使用get()方法和列表索引解析。在使用urllib库进行请求时,我们使用json.load...原创 2020-01-19 14:37:42 · 3975 阅读 · 0 评论 -
python3爬虫(2)--requests库的基本方法、高级方法、异常处理
一、基本方法。1.1、一句话的请求。1.2、get请求的params 参数。1.3、post请求的data参数。1.4、抓取网页通常加入headers、timeout、time.sleep信息。1.5、JSON格式的解析。1.6、抓取二进制数据的解析。1.7、响应。二、requests库高级方法。2.1、Cookies处理。2.2、会话维持,Session对象。。2.3、代理设置。2.4、身份认证。2.5、Prepared Request。2.6、其他。三、异常处理。原创 2020-01-19 00:08:36 · 2017 阅读 · 1 评论 -
Python3爬虫(1)--urllib请求库的基本方法、高级方法、异常处理
一、urllib库基本使用。1.1、url库他是python内置的HTTP请求库,他主要包含4个模块。1.2、第一个简单的get请求。1.3、如何判断是get请求和post请求。1.4、post请求表单的提交。1.5、隐藏、请求超时、延时提交。二、urllib库高级应用。2.1、Handler和Opener简介。2.2、urllib库免费代理ip的使用。2.3、urllib库Cookies 的处理。三、urllib库异常处理。原创 2020-01-17 05:20:14 · 1595 阅读 · 0 评论 -
python正则表达式详细版
1、re.match()函数和re.search()函数实现字符串的正则匹配。2、re.sub()函数,用 检索和替换。3、re.compile()函数。4、re.compile()供 match() 和 search() 这两个函数的使用。5、findall()使用。6、re.finditer()使用。7、re.split()使用。8、'(?P...)'分组匹配。附件1、flags匹配模式规则表。附件2、pattern正则表达式匹配模式规则表。原创 2020-01-16 17:29:35 · 3938 阅读 · 0 评论