
网络爬虫初级
码手西风
这个作者很懒,什么都没留下…
展开
-
爬虫初级一
本部分参考:MOOC课程:嵩天主要内容:爬虫获取html格式的简单方法1.爬虫的基础2.爬虫的最简单框架import requeststry: r = requests.get("https://baidu.com") r.encoding = r.apparent_encoding print(r.text)except: print("爬取失败")...原创 2018-06-13 16:37:54 · 462 阅读 · 0 评论 -
爬虫初级二
解析网页1.BeautifulSoup解析库1.它是一个类,功能就是把不友好的html文件转换成有好的形式,就像我们在浏览器里面看到的源代码一样,除此之外我们还可以通过它找到标签,找到html的整个树形结构。从而找到每一个节点信息。2.安装:命令提示符:pip install BeautifulSoup43.测试import requestsfrom bs4 import BeautifulSo...原创 2018-06-14 09:17:47 · 245 阅读 · 0 评论 -
爬虫初级三
定向爬虫实例——大学排名的数据1.任务描述:输入是定向url = “http://www.zuihaodaxue.cn/shengyuanzhiliangpaiming2018.html” 输出是大学排名数据2.原创 2018-06-14 13:02:45 · 191 阅读 · 0 评论 -
爬虫初级四
正则表达式1.什么是正则表达式?正则表达式专门来查找 符合要求 的文本。在一大串字符中 挑出我们需要的字符类型。2.正则表达式常用语法经典的几个正则表达式:3.python的re库search函数的使用:match函数的使用:find_all函数的使用:split函数:finditer函数:每次找一个,分次数打印。sub函数:count表示匹配的次数。4.编译后的正则表达式这个pat就是表示这一...原创 2018-06-14 15:25:39 · 164 阅读 · 0 评论 -
爬虫初步五
淘宝商品价格对比实例:找一个淘宝商品,可以自定义显示几页的商品信息代码:# 淘宝商品价格对比爬虫import requestsimport redef get_all_http(url): try: r = requests.get(url, timeout=30) r.coding = r.apparent_encoding r....原创 2018-06-15 10:37:29 · 237 阅读 · 0 评论 -
爬虫初步六
Scrapy库的使用1. 什么是scrapy框架?它是一个用的最多的一个爬虫框架,相当于一个爬虫模版,是爬虫代码的半成品。主要针对网站级的爬虫规模。具有可编写,可扩展的功能。2. 框架的具体结构图整个过程是这样的:spiders获取初始的url(程序员指定某个网站),产生requests。通过引擎放在scheduler上面。scheduler发现仅有一个url便立马通过引擎去downloader下...原创 2018-06-15 21:55:26 · 328 阅读 · 0 评论