
- Python爬虫开发与项目实战 笔记 。
文章平均质量分 63
极光 .
这个作者很懒,什么都没留下…
展开
-
- Python HTML正文抽取(存储为JSON) [ 笔记 ]
抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 —— 在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点...原创 2018-07-24 11:07:09 · 9666 阅读 · 1 评论 -
- Python 网络爬虫概述 [ 笔记 ]
目录 概念类型网络爬虫的工作流程概念网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 类型类型 描述 通用网络爬虫 传统的搜索引擎,属于通用网络爬虫的范围,但是通用爬虫具有一定的局限性,因为它所面向的数据庞大而且繁杂,没有针对性,所以用通用爬虫爬出来的数据会有很多用户不关心的数据,且它对密集型的...原创 2018-07-20 14:09:13 · 521 阅读 · 0 评论 -
- Web前端基础 XPath [ 笔记 ]
目录 介绍节点节点关系 描述并举栗路径表达式 描述并举栗选取特定节点 描述并举栗介绍对于XPath的概念,百度百科上是这么解释的:XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点 ... ... 提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初...原创 2018-07-20 13:07:12 · 621 阅读 · 0 评论 -
- Python 文件读写 [ 笔记 ]
目录 打开文件access_mode(文件模式)参数说明buffering(文件缓冲区)参数说明文件读取方法说明文件写入方法说明打开文件一般在对文件进行IO操作之前,是需要先将文件打开 语法:open(file_name [, access_mode][, buffering]) 参数说明: file_name为文件的名称,这是一个必填的参数...原创 2018-07-19 13:46:53 · 293 阅读 · 0 评论 -
- Python 多媒体文件下载(利用urllib) [ 笔记 ]
目录 语法说明举个栗子语法说明urllib模块的urlretrieve()方法,可以直接远程数据下载到本地:语法:urlretrieve(url, filename=None, reporthook=None, data=None, context=None)参数 说明 url filename 指定了本地的存储路径,如果这里没有指定参...原创 2018-07-24 15:57:46 · 448 阅读 · 0 评论 -
- Python HTTP请求的实现 [ 笔记 ]
目录安装Requests库GET请求POST请求 响应码code和响应头headers的处理请求超时设置读取URL和下载网页内容,是每一个爬虫的必经之路。那么在阅读《Python爬虫开发与项目实战》一书得知,Python实现HTTP请求有三种方式——urllib2/urllib httplib/urllib Requests经书中例子对比发现,个人更偏好第三种请求...原创 2018-07-23 10:43:55 · 51186 阅读 · 2 评论