
python之网络爬虫
文章平均质量分 88
程序猿玩AI
玩AI的程序猿,分享AI工具,AI智能体知识。公众号:程序猿玩AI
展开
-
网络爬虫之初识网络爬虫
第一次接触到python是一个很偶然的因素,由于经常在网上看连载小说,很多小说都是上几百的连载。因此想到能不能自己做一个工具自动下载这些小说,然后copy到电脑或者手机上,这样在没有网络或者网络信号不好的时候都可以看。当时还不知道网络爬虫的概念。工作学习中用得最多的是C编程,但是对于网络世界而言,C确实不是一个好的语音,C更多面向硬件和内核。基于想自己下载网络小说的念头,认识到了python.使用原创 2017-03-05 10:30:24 · 505 阅读 · 1 评论 -
网络爬虫之Scrapy实战三:爬取多个网页CrawlSpider
本文介绍了scrapy中CrawlSpider的用法原创 2017-05-19 23:14:25 · 8383 阅读 · 0 评论 -
网络爬虫之Scrapy 原理介绍
scrapy的工作原理可以用如下的工作流程图来概括:按照上面的图来说下scrapy的工作流程:1.引擎打开一个网站(open a domain),找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。 图中步骤1如具体的spider函数中会定义:allowd_domains以及start_urls两个变量allowd_domains=原创 2017-04-24 22:00:27 · 823 阅读 · 0 评论 -
网络爬虫之scrapy学习之安装和工程创建
关于scrapy的安装参考http://cuiqingcai.com/912.html,里面有详细的windows, linux下的安装介绍。这里工程的创建以windows上用pycharm创建为例子:执行scrapystartproject test1的命令,就会在对应的目录下生成工程在pycharm中打开此工程目录:并在Run中选择Edit Configuratio原创 2016-12-18 15:21:11 · 525 阅读 · 0 评论 -
网络爬虫之Scrapy实战一
前面介绍了scrapy的安装和工程创建,这一章就用scrapy来具体运行一个爬虫。首先在items.py中定义title, author. 这里的Test1Item和Django中的modul作用类似。这里可以将Test1Item看做是一个容器。这个容器继承自scrapy.Item.而Item又继承自DictItem。因此可以认为Tes原创 2017-05-03 11:39:57 · 819 阅读 · 0 评论 -
网络爬虫之Scrapy实战二:爬取多个网页
在上一篇scrapy介绍中,我们抓取了单一的网页。这一章介绍了如何自动抓取多个网页。这里还是以一个小说的页面为例子进行讲解原创 2017-05-10 22:11:58 · 10582 阅读 · 0 评论 -
网络爬虫之lxml
Python lxml包用于解析html和XML文件,个人觉得比beautifulsoup要更灵活些Lxml中的路径表达式如下:在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表示中还可以选取多个路径,使用’|’运算符,比如下面的样子://book/title | //book/price 选取 book 元素的所有 titl原创 2017-03-24 22:30:15 · 358 阅读 · 0 评论 -
网络爬虫之beautifulsoup
一个网页的节点太多,一个个的用正则表达式去查找不方便且不灵活。BeautifulSoup将html文档转换成一个属性结构,每个节点都是python对象。这样我们就能针对每个结点进行操作。参考如下代码def parse_url(): try: req=urllib2.Request('http://www.xunsee.com/article/8c39f5a0-ca5原创 2017-03-13 22:15:52 · 4345 阅读 · 0 评论 -
网络爬虫之HTMLParser
HTMLParser是python自带的网页解析工具,使用很简单。便于HTML文件的解析下面我们来看相关代码:class Newparser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.flag=False self.text=[]原创 2017-03-28 23:15:39 · 390 阅读 · 0 评论 -
网络爬虫之链接网页
访问网页首先要请求URL,也就是网址链接。Python提供了urllib2函数进行链接。具体如下:import urllib2req=urllib2.Request('http://www.baidu.com.cn')fd=urllib2.urlopen(req) Request里面的第一个参数为网址的链接,里面还可以携带头信息以及具体要传递给网址的信息。这样说比较抽象。我们用w原创 2017-03-06 22:29:54 · 818 阅读 · 0 评论 -
网络爬虫之Scrapy实战四:爬取网页下载图片
本节介绍了如何利用scrapy下载网页上的图片原创 2017-06-09 23:07:33 · 8637 阅读 · 0 评论