RonnieღC-优快云博客

原创关于使用正则表达式解析网页内容

关于使用正则表达式解析网页内容正则表达式用于对字符串进行操作，事先定义好特定的规则，利用这个规则对字符串进行过滤。对网页内容解析时，可以将源代码变为字符串，利用正则表达式进行匹配。常见的正则字符和含义模式描述模式描述.匹配任意字符，除了换行符\s匹配空白字符串*匹配前一个字符0次或多次\S匹配任何非空白字符串+匹配前一个字符1次或多次\d...

2019-07-12 14:38:00 3399

原创 Selenium动态网页抓取

动态网页抓取上次实现了静态网页抓取豆瓣读书Top250的书名，这次跟着同一本书，研究一下动态网页的抓取。动态网页简介动态网页和静态网页的区别就在于，静态网页展示的内容都在HTML源代码中，而动态网页常常使用AJAX技术实现后台与服务器的数据交换，就可以在不重新加载整个页面的情况下对网页进行局部更新。AJAX，全称是Asynchronous JavaScript And XML，即异步的Ja...

2019-07-11 19:48:31 1778

原创 Requests爬虫实践：豆瓣读书Top250数据

Requests爬虫实践：豆瓣读书Top250数据本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址参考书籍：《Python网络爬虫从入门到实践》书中爬的是电影数据，自己想爬个书籍数据看看，差别也不是很大了首先找到了豆瓣读书Top250的网页地址：https://book.douban.com/top250然后需要为其定制请求头Headers，如果请求头没有指定或者和实际网页不...

2019-07-06 13:09:09 1140

原创 Python爬取静态网页操作

Python爬取静态网页参考书籍：唐松《Python网络爬虫从入门到实践》简介静态网页一般指纯粹的HTML格式的网页，对于爬虫来说，静态网页的数据都比较容易获取，利用好Requests库就能轻松发送HTTP请求，获取到网页的数据。Requests库的安装Requests库可以帮助我们获取到响应内容，再通过一些参数来满足我们的需求，它的安装也十分简单，对于Windows用户来说，在已经装好...

2019-07-05 19:05:42 2393 2

原创重要的Python库概述

Python库概述最近在学习python数据分析基础，对python常用的库进行一个简要介绍和归纳。参考书籍：Wes McKinney 著《利用Python进行数据分析》NumPyNumPy的全称是Numerical Python，是Python科学计算的基础包，它为Python提供了快速数据处理功能，在数据处理方面，还可作为在算法之间传递数据的容器。由于它处理数值型数据要比内置的Pyth...

2019-07-04 10:40:24 587 1