python
Bondiblue
神经质、脑洞大、记性差
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3爬虫学习3:Beautiful Soup的用法
Beautiful Soup的用法之前通过urllib.request模块可以将网页当作本地文件来读取,那么获得网页的html代码后,自然就是要将我们所需要的部分从杂乱的html代码中分离出来。既然要做数据的查找和提取,当然我们首先想到的应该是正则表达式的方式,而正则表达式书写的复杂我想大家都有体会,而且Python中的正则表达式和其他语言中的并没有太大区别,也就不赘述了,所以现在介绍Python中原创 2017-12-09 08:47:24 · 8517 阅读 · 2 评论 -
Python3爬虫学习2:如何应对网站的反爬虫机制
如何应对网站的反爬虫机制在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。 例如打开搜狐首页,先来看一下Chrome的头信息(F12打开开发者模式)如下: 如图,访问头信息中显示了浏览器以及系统的信息(headers所含信息众多,具体可自行查询)Python中urllib中的request模块提供了模拟浏览器访问的功能,代码如下:from原创 2017-12-09 08:31:31 · 833 阅读 · 1 评论 -
Python3爬虫学习1:入门篇
Python3爬虫学习在网上看到大多数爬虫教程都是Python2的,但Python3才是未来的趋势,许多初学者看了Python2的教程学Python3的话很难适应过来,毕竟Python2.x和Python3.x还是有很多区别的,一个系统的学习方法和路线非常重要,因此我在联系了一段时间之后,想写一下自己的学习过程,分享一下自己的学习经验,顺便也锻炼一下自己。一、入门篇这里是Python3的官方技术文档原创 2017-12-08 15:31:07 · 709 阅读 · 0 评论 -
Python3爬虫学习4:降爬取的信息保存到本地
将爬取的信息存储到本地之前我们都是将爬取的数据直接打印到了控制台上,这样显然不利于我们对数据的分析利用,也不利于保存,所以现在就来看一下如何将爬取的数据存储到本地硬盘。1.对.txt文件的操作读写文件是最常见的操作之一,python3 内置了读写文件的函数:open open(file, mode=’r’, buffering=-1, encoding=None, errors=None, ne原创 2017-12-09 09:09:52 · 6519 阅读 · 1 评论 -
Python3爬取简书首页文章的标题和文章链接
from urllib import request from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库 #构造头文件,模拟浏览器访问 url="http://www.jianshu.com" headers = {'User-Agent':'Mozilla/5原创 2017-12-09 16:16:23 · 2787 阅读 · 2 评论
分享