
Python网络爬虫学习
文章平均质量分 55
记录Python爬虫的学习
u_hcy2000
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫学习(一)
一、总述 Urllib是Python用于操纵URL的一个模块 #可以将网页中的内容全部读取出来,并将内容赋值给字符串变量data import urllib.request file=urllib.request.urlopen("http://www.baidu.com") data = file.read() print(data) 使用re模块实现python正则表达式的内容 二、手...原创 2018-09-14 10:35:36 · 203 阅读 · 0 评论 -
Python网络爬虫学习(二)
一、框架初识 爬虫项目的半成品:常见爬虫功能的代码已经实现好了,留下一些接口,根据需求变动少量代码部分,并根据需求去调用这些接口,完成一个爬虫项目 我这里主要用的是开源的scrapy框架。 二、Scrapy框架简介 Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取Web页面并提取出我们关注的结构化的数据 Scrapy...原创 2018-09-15 08:55:21 · 235 阅读 · 0 评论 -
Python网络爬虫之正则表达式(三)
(一)match()方法 1、最常规的匹配、泛化匹配 import re content = 'Hello 123 4567 World_This is a Regex Demo' result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content) print(result) print(result.group()) ^$表示...原创 2018-10-26 21:35:06 · 226 阅读 · 0 评论