
爬虫
胡桓
顶级测试工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python re模块学习(1)
python原创 2017-09-05 14:33:46 · 312 阅读 · 0 评论 -
爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(1)
ok,走起,我们先把网址贴出来 要爬的网址是:https://movie.douban.com/cinema/nowplaying/chengdu/先把这个网页先爬下来import urllib2resq = urllib2.Request("https://movie.douban.com/cinema/nowplaying/chengdu/")response = urllib2.urlope原创 2017-09-05 16:35:55 · 5580 阅读 · 1 评论 -
爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(2)
改下代码,观察了下,每页有20个评论,那我们就每次让page自增20,一直循环爬下去,先试试效果吧,小伙伴们increase = 0result = []while 1: page = 0 + increase increase += 20 try: url = 'https://movie.douban.com/subject/'+movie_id+'/原创 2017-09-14 15:20:28 · 2298 阅读 · 1 评论 -
抓取新华网所有旅游相关的标题和地址
#coding:utf8import urllib2import jsonimport xlwtimport oswbk = xlwt.Workbook()sheet = wbk.add_sheet(u'新华网旅游相关信息')sheet.write(0, 0, u'标题')sheet.write(0, 1, u'url地址')title_list = []url_list = []原创 2017-09-25 11:52:18 · 6264 阅读 · 0 评论 -
scrapy爬今日头条头条号
先发下目录架构get_url:#-*- coding:utf8 -*-import requestsdef get_url(): result = requests.get(url, headers=config.headers) resp = result.content _data = json.loads(resp) pattern = re.comp...原创 2018-03-14 16:08:09 · 2604 阅读 · 9 评论