
Python爬虫学习之旅
Ayrton1031
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
我的爬虫学习之旅 (一) 初识爬虫
写在前面 此系列文章是记录本人在学习爬虫过程中的“心路历程”,由于之前的学习没有好好的做总结,导致在一段时间后对之前所掌握的内容变得生疏。所以这次决心开始好好记录学习过程中的知识内容,以便于日后重温。 本人的爬虫学习主要是参考崔庆才老师的爬虫系列课程。崔老师的课程讲解非常详细,在B站上也有配套的视频教程(建议大家自行搜索)。我推荐在学习过程中,应该及时记录崔老师课程中的相关知识点。因为...原创 2019-04-25 19:14:22 · 194 阅读 · 0 评论 -
我的爬虫学习之旅 (二) Requests库
前言 网上的多数教程都是先基于urllib这个库开始介绍爬虫的,然而当你学习了一段时间后,就会发现urllib这个库使用起来其实并不方便,多数的代码也是不使用这个库所提供的方法的。所以,对于urllib库只需拥有一个简单的认识即可,可以直接从Requests这个库开始入手学习。 Requests库 一、基本使用: requests库是python实现的最简单易用的HTTP库,比url...原创 2019-04-25 23:38:21 · 285 阅读 · 0 评论 -
我的爬虫学习之旅 (三) 正则表达式
正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。用大白话来讲,正则表达式是一种匹配模式,能够从目标文本内容中匹配到预定义的字串序列。 关于正则表达式的语法以及学习可以在B站中查看有关视频教程,在这里推荐这篇文字教程: 正则表达式30分钟入门教程 当然,正则表达...原创 2019-04-26 01:48:32 · 208 阅读 · 0 评论 -
我的爬虫学习之旅 (四) 爬虫实战之猫眼电影TOP100
前言 在学习了对网页的基本请求方式以及正则匹配的规则后,可以用现掌握的理论做一些简单的爬虫脚本,本次的目标站点是猫眼电影的TOP100。 首先我们来到猫眼电影的首页,进入开发者模式,然后分析它的URL。 然后我们点击翻页,发现它的URL变化如下: https://maoyan.com/board/4?offset=0 #第一页 https://maoyan.com/board...原创 2019-04-26 15:47:59 · 516 阅读 · 0 评论 -
我的爬虫学习之旅 (五) Xpath初识
前言 XPath是一种XML路径语言,适合于对HTML中的标签进行搜索。虽然学习过正则表达式,但是XPath的功能以及效率要比正则表达式方便的多,在python中要使用XPath,需要安装lxml库,lxml库是Python的一个解析库,支持HTML和XML的解析,支持XPath。 pip install lxml 一、XPath基础使用: 例如针对如下的一段html文本: ...转载 2019-04-26 21:40:26 · 449 阅读 · 0 评论 -
我的爬虫学习之旅 (六) BeautifulSoup
前言: BeautifulSoup:美味的汤。是一个强大又方便的python网页解析库,可以从网页里HTML或XML文件中提取数据。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 一、简单入门: 首先导入BeautifulSoup这个库,若报错则需要在命令行中安装这个库。 from bs4 import BeautifulSoup...转载 2019-04-27 19:07:34 · 658 阅读 · 0 评论 -
我的爬虫学习之旅 (七) 爬虫实战之微博评论爬取
前言: 由于在学习python的过程中对数据库的相关内容没有接触,所以本次结合爬虫与数据库来做这一方面的补充学习。 对于python数据库的学习使用PyMySql,PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。 一、pymysql快速入门: 创建数据库链接对象 使用数据库连接对象创建游标对象 使用游标对...原创 2019-04-28 18:37:11 · 1737 阅读 · 1 评论 -
我的爬虫学习之旅 (八) 爬虫实战之京东商品评论爬取
前言: 本次针对待爬取数据是由动态网页技术加载出的情形进行分析,在之前的实战案例中,爬取的数据内容都是随着URL变化来实现页面的跳转,而动态加载的形式使得我们原本可以在页面上看到的内容却在源码中找不到。这时,就需要使用另一种分析页面的方式进行爬虫的编写。 实战案例:爬取京东商品的用户评论 首先打开京东,进入某一指定商品页面,本次选择华为P30的商品信息页面 链接地址:https...原创 2019-04-29 03:51:37 · 4034 阅读 · 5 评论