
爬虫
小桔帽
这个作者很懒,什么都没留下…
展开
-
python中的中文字符问题
使用python 2.6时发现脚本中有中文且处理中文时,有编码解码的问题,用以下方法解决:1、python脚本首行添加#-*- coding:utf-8 -*-若不添加,脚本中的中文字符一律识别不了(包括注释中有中文都不行)2、编写了个小爬虫,爬到的html文件中若有中文字符,需要对获得的html进行解码:html = response.read().dec原创 2017-02-08 10:14:01 · 1336 阅读 · 0 评论 -
python通配符.
在写爬虫的时候,遇到一个小问题,跨html标签(也就是多行)的时候,正则匹配不出来:举例html:class="nav-logo">href="https://www.douban.com">豆瓣社区这个是我写的正则:reg = u'.*?.*?/div>'titleRe = re.compil原创 2017-02-08 10:40:06 · 13592 阅读 · 0 评论 -
python爬虫小试
说明:之所以要构造http请求,因为单纯的用urllib.urlopen(url)来获得html源码,次数多了,网站就会是403 forbidden了,构造http请求则会避免403错误原创 2017-02-08 10:59:49 · 308 阅读 · 0 评论