
python爬虫专项
这一部分为了详细的介绍爬虫的知识和技巧以及实战项目讲解
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【python爬虫专项(31)】链家二手房源数据采集4(噪声数据处理)
清洗数据来源数据是来自于python爬虫专项(28)和(29)里面采集的分页信息和深度信息,如下1) data_1表格下面获取的分页信息2) data_2表格下面获取的深度信息清洗逻辑:【函数式编程】–> 【分开清洗保留原数据】函数构建函数1:data_cleaning1(table,table_new) → 【分页数据清洗】函数 &n...原创 2020-02-22 21:09:18 · 535 阅读 · 0 评论 -
【python爬虫专项(30)】链家二手房源数据采集3(大数据量下的动态ip设置)
反爬措施之前使用等待时间来进行反爬措施的应对,也可以通过设置动态ip代理来应对为什么爬虫需要设置代理ip?当一直使用同一个ip访问网站时,由于访问网站次数过量,给服务器过多压力,该ip可能被禁IP地址:IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异如何查看本地ip地址① 直接百度搜索“ip”② 通过...原创 2020-02-22 15:31:17 · 1038 阅读 · 0 评论 -
【python爬虫专项(29)】链家二手房源数据采集2(深度信息采集)
链家二手房源数据深度采集这部分的实践是基于上一个博客获得的数据,具体的参考网址如下:爬虫逻辑 :【提取mongo里面的具体网页的链接】–> 【设置动态ip】–> 【获取详细信息】函数式编程:函数1:url_extract(database,table,field) → 【数据网页url提取】函数 d...原创 2020-02-22 15:17:47 · 1242 阅读 · 0 评论 -
【python爬虫专项(28)】链家二手房源数据采集1(分页信息采集)
链家二手房源信息采集这里以采集 北京二手房源 为例,要进行获取的字段如下爬虫逻辑:【分页url获取】–> 【页面列表数据的获取】函数式编程:函数1:get_urls(city_url,n) → 【分页网页url获取】函数city_url:不同城市起始网址n:页数参数函数2:get_data(ui,d_h,table) → 【数据采集及mongo入库】函数ui:数据信息网页...原创 2020-02-22 15:17:04 · 2261 阅读 · 0 评论 -
【python爬虫专项(27)】拉勾网数据采集(关键词网址不发生变化)
拉勾网登陆后,选择某城市,搜索任意关键字,采集岗位信息数据起始参考网址:全国数据分析岗位招聘前一篇是搜索关键词网址发生变化的情况,接下来就处理搜索关键词不发生变化情况下的数据爬取,就以上一篇提及的‘数据分析’作为关键词,进行相同字段数据的爬取爬虫逻辑:【登陆】-【访问页面 + 采集岗位信息 - 翻页】1)函数式编程函数1:login(u,username,password) → 【登陆...原创 2020-02-16 22:54:38 · 774 阅读 · 0 评论 -
【python爬虫专项(26)】拉勾网数据采集(关键词网址发生变化)
拉勾网登陆后,选择某城市,搜索任意关键字,采集岗位信息数据起始参考网址:拉勾网爬虫逻辑:【登陆】-【分页网页url采集】-【访问页面 + 采集岗位信息】这里按照“数据分析”为关键字搜索,过程如下1)函数式编程函数1:login(u,username,password) → 【登陆】 u:起始网址 ...原创 2020-02-16 18:11:59 · 539 阅读 · 0 评论 -
【python爬虫专项(25)】新型冠状病毒肺炎B站视频弹幕数据爬并做数据词云展示
1、查看要爬取页面打开B站网址,输入“新型冠状病毒肺炎”关键字,显示界面如下:2、确定爬虫逻辑查看网页的内容后,一个网址页面下20个视频,这里只采集20页的视频数据(共400个视频),因为是出现的视频按照点击量进行排序的,所以再往后的视频爬取意义就不大了,因此基本爬虫逻辑如下:【分页网址的url采集】——> 【单个视频url的采集】——> 【进入视频播放页面获取数据信息】——...原创 2020-02-14 13:59:51 · 1837 阅读 · 2 评论 -
【python爬虫专项(24)】协调Selenium与requests+bs的方法
爬虫难点在哪里?反爬问题 → 网页无法访问页面动态信息(js脚本写入)→ 无法快速解析网页内容页面信息js写入网址非静态网址selenium与requests+bs采集的异同是?1)区别点① 对于访问网址selenium通过webdriver来实现,登陆则通过页面交互实现requests实现,登陆通过设置cookies信息实现② 对于解析网页信息bs在解析网页标签的时候,是t...原创 2020-02-13 12:40:52 · 1129 阅读 · 0 评论 -
【python爬虫专项(23)】利用Selenium实现网页账号登录(以豆瓣网为例)
案例网页:https://book.douban.com/1)找到“登陆/注册”的标签,并click原创 2020-02-13 09:31:29 · 1491 阅读 · 0 评论 -
【python爬虫专项(22)】利用Selenium获取网页信息(以爬取骆驼祥子数据为例)
网页信息定位常用方法1)定位单个元素(相当bs里面的find)find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_partial_link_textfind_element_by_tag_namefind_element_by_clas...原创 2020-02-12 23:21:56 · 3165 阅读 · 0 评论 -
【python爬虫专项(21)】最简单的Selenium网络爬虫(以爬取豆瓣数据为例)
访问网页返回结果为WebDriver对象,网页测试窗口也进入对应网址.current_url → 返回网页网址.get_cookies() → 返回网页cookies示例(打开百度和豆瓣都成功了)针对创建的brower对象,可以查看类型和调用其下面的一些方法及函数,如下获取网页数据采集页面数据:https://book.douban.com/subject/1043815/步骤...原创 2020-02-12 22:19:28 · 1011 阅读 · 1 评论 -
【python爬虫专项(20)】Selenium介绍、安装以及简单调试
1、什么是Selenium?1)概念Selenium 是一套完整的web应用程序测试系统Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上Selenium测试直接运行在浏览器中,就像真正的用户在操作一样(模拟人的行为)支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla F...原创 2020-02-12 20:52:00 · 1987 阅读 · 0 评论 -
【python爬虫专项(19)】blibli弹幕数据爬取(以全站搜索蔡徐坤的视频为例)
blibli任意搜索关键字,相关视频的弹幕数据采集参考网址:B站蔡徐坤爬虫逻辑:【分页url采集】-【视频页面url采集】-【视频页面数据采集 / cid信息 / 弹幕xml数据采集】弹幕xml网址示例:https://comment.bilibili.com/84682646.xml(通过cid获取弹幕的网址,后面会详细介绍)要求1)函数式编程函数1:get_outer_urls...原创 2020-02-11 14:14:21 · 5411 阅读 · 4 评论 -
【python爬虫专项(18)】基于爬虫的MongoDB的应用(将爬取的数据存入到数据库)
之前在去哪儿网采集的景点数据,添加函数将数据存入mongo函数:get_data(ui,d_h,d_c,table) → 【数据采集及mongo入库】 ui:数据信息网页 d_h:user-agent信息 &...原创 2020-02-10 22:53:40 · 2306 阅读 · 2 评论 -
【python爬虫专项(17)】如何通过python使用MongoDB(pandas与mongo的交互)
核心工具包:pymongopython通过pymongo来连接mongopymongo安装命令提示符中安装:pip install pymongo查看安装版本:pip show pymongo创建MongoClient对象,连接mongo1) 创建对象myclient = pymongo.MongoClient(“mongodb://localhost:27017/”)2)查看现...原创 2020-02-10 22:14:08 · 846 阅读 · 0 评论 -
【python爬虫专项(16)】MongoDB基本语法(数据库、集合、文档的操作、csv数据的存入与导出以及Robot3T的简单使用)
数据库的创建/删除1)创建数据库use DATABASE_NAME如果数据库不存在,则创建数据库,否则切换到指定数据库2)查看数据库查看所有数据库:show dbs查看现运行的数据库:db注意点:数据库中必须有数据,才可以显示(上一节文章中的test数据库)db.table02.insert(…):这里虽然没有创建集合,但mongodb中当你插入一些文档时,MongoDB 会自动...原创 2020-02-10 21:28:21 · 2194 阅读 · 0 评论 -
【python爬虫专项(15)】MongoDB快速入门
NoSQL是什么?NoSQL,指的是非关系型的数据库,相比于sql关系型数据库来说NoSQL = Not Only SQL ,意即"不仅仅是SQL"NoSQL用于超大规模数据的存储,这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展 可以通过第三方平台很容易的访问和抓取数据:用户的个人信息,社交网络,地理...原创 2020-02-10 20:33:05 · 615 阅读 · 0 评论 -
【python爬虫专项(14)】正则表达式在爬虫中的应用
遗留问题之前对于豆瓣读书信息的采集中,特别是要求二(如下的阴影区信息),直接将可以用的信息采集了下来,而带有链接的字段都是当做空白字符进行处理的,如下当时创建的字典搜集数据:(比如作者名称,译者字段都是空白)问题解决下面以《肖申克救赎》中要求二中数据的获取为例,进行正则表达式的应用准备好前期的工作和网页分析,这里就直接给出代码和输出结果,如下从结果输出可以看出,作者和译者之间存...原创 2020-02-10 12:04:34 · 1529 阅读 · 1 评论 -
【python爬虫专项(13)】正则表达式(3)—— 字符搜索、替换与分割
字符搜索前面进行字符串的匹配都是使用的re.match()方法,此方法的不方便的地方在于,每次匹配都是从开头进行的,要想找到里面的某个元素需要前面加上 .* ,有没有扫描全部的字符串而判断元素是否存在的方式呢?re.search()就可以上场了1)re.search(pattern, string, flags=0) → 扫描整个字符串并返回第一个成功的匹配参数 ...原创 2020-02-09 23:58:18 · 1050 阅读 · 0 评论 -
【python爬虫专项(12)】正则表达式(2)—— 正则表达式模式
概念与注意点模式字符串使用特殊的语法来表示一个正则表达式r’…’ 用在pattern之前,表示单引号中的字符串为原生字符,不会进行任何转义 由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r’\t’,等价于 \t )匹配相应的特殊字符...原创 2020-02-09 23:29:31 · 528 阅读 · 0 评论 -
【python爬虫专项(11)】正则表达式(1)—— 快速上手
什么是正则表达式?概念 正则表达式,又称规则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE) 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,...原创 2020-02-09 15:36:25 · 854 阅读 · 0 评论 -
【python爬虫专项(10)】去哪儿网景点数据采集
以上海旅游景点数据为例参考网址:上海旅游景点爬虫逻辑:【分页网页url采集】-【数据采集】还是按照爬虫逻辑二进行获取数据函数1:get_urls(city,n) → 【分页网页url采集】 city:城市对应的编码 n:页数参数&n...原创 2020-02-09 14:10:32 · 9259 阅读 · 3 评论 -
【python爬虫专项(9)】哪吒之魔童降世影片的海报爬取
以哪吒之魔童降世影片的海报为例进行图片爬取参考网址:哪吒之魔童降世官方海报爬虫逻辑:【分页网页url采集】-【数据采集】-【保存图片】经过前两篇文章的实践,可以发现两种爬虫逻辑各有优缺点,逻辑(一)可以获得相对详细的信息,但是需要从主url中获取分页url再进行数据的爬取,很消耗时间,而逻辑(二)则是直接获取在第一个url上的信息,爬取即可,很省时,当然相对地获取的信息也就较少一些。而这次...原创 2020-02-08 18:37:23 · 2508 阅读 · 0 评论 -
【python爬虫专项(8)】爬虫实战项目一( 豆瓣图书类别的书籍信息数据获取——爬虫逻辑2)
任意一图书类别的书籍信息数据参考网址:豆瓣读书网爬虫逻辑:【分页网页url采集】-【数据采集】这次的逻辑要求分两步走,封装两个函数函数1:get_urls(n) → 【分页网页url采集】 n:页数参数 结果:得到一个分页网页的l...原创 2020-02-08 14:36:03 · 2135 阅读 · 0 评论 -
【python爬虫专项(7)】爬虫实战项目一( 豆瓣图书类别的书籍信息数据获取——爬虫逻辑1)
任意一图书类别的书籍信息数据● 参考网址:豆瓣读书网爬虫逻辑:【分页网页url采集】-【数据信息网页url采集】-【数据采集】● 针对爬虫逻辑的三步走,采用函数式编程的方式进行数据爬取函数1: get_urls(n) → 【分页网页url采集】 ● n:页数参数 &nb...原创 2020-02-08 00:00:02 · 2004 阅读 · 1 评论 -
【python爬虫专项(6)】网页标签解析(文档树输出、搜索及遍历)
1. 文档树格式化输出soup.prettify()还是以官方的示例代码为例,首先进行变量定义,然后再进行代码解析,html案例代码如下"""<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>...原创 2020-02-07 13:31:17 · 2185 阅读 · 0 评论 -
【python爬虫专项(5)】Xpath与lxml包(BeautifulSoup如何调用Xpath解析器)
1. 什么是Xpath?1.1 概念Xpath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言Xpath也可以用于定位html的标签Xpath就像是一个地址,可以找到网页代码里你需要的数据1.2 如何在网页中找到xpath路径?以豆瓣网为例:https://book.douban.com/tag/%E7%BB%8F%E5%85%B8...原创 2020-02-07 00:11:20 · 750 阅读 · 3 评论 -
【python爬虫专项(4)】BeautifulSoup介绍、安装以及简单使用
1. BeautifulSoup介绍与安装1.1 什么是BeautifulSoup● Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过转换器实现惯用的文档导航,查找,修改文档的方式1.2 如何安装?● 首先查看电脑中有没有BeautifulSoup工具包:pip show beautifulsoup4●直接安装:pip install...原创 2020-02-06 23:01:43 · 966 阅读 · 0 评论 -
【python爬虫专项(3)】网络资源获取工具requests库介绍(try-except错误异常处理)
1、requests介绍1.1 什么是requests? ● 用于访问网页(url)的工具包1.2 如何安装? ● 首先检查自己有没有requests:pip show  ...原创 2020-02-06 21:39:57 · 3587 阅读 · 0 评论 -
【python爬虫专项(2)】网页结构剖析
1. 如何查看网页结构以豆瓣网为例:https://book.douban.com/subject_search?search_text=%E6%95%B0%E6%8D%AE&cat=10011)浏览器:谷歌浏览器 - chrome2)开启开发者模式:右键 → 检查3)查看源代码:右键 → 查看网页源代码2. 如何构建爬虫逻辑2.1 一个简单的框架图2.2 爬虫基本逻辑...原创 2020-02-06 16:33:33 · 2032 阅读 · 0 评论 -
【python爬虫专项(1)】读懂网页结构
1. 什么是HTML语言?1.1 概念● HTML 是用来描述网页的一种语言● HTML 指的是超文本标记语言(Hyper Text Markup Language)● HTML 不是一种编程语言,而是一种标记语言(markup language)● 标记语言是一套标记标签 (markup tag)1.2 URL是什么?● URL(Uniform Resource Locator) ...原创 2020-02-06 13:19:45 · 1032 阅读 · 1 评论