
爬虫
文章平均质量分 77
风口的猪2016
做一个开心的IT男吧
展开
-
(一)爬虫入门
# -*- coding: utf-8 -*- import urllib2 import urllib ''' #最简单的网页内容抓取 request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request) print response.read() ''' ''' #post方式发送请求原创 2017-09-27 13:31:05 · 369 阅读 · 0 评论 -
(二)爬取百度帖子
注意:网站会更新,正则表达式不一定都能匹配,F12自己去网站看看修改一下 # -*- coding:utf-8 -*- import urllib import urllib2 import re #百度贴吧 class BDTB: #初始化,传入基地址,是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.原创 2017-09-27 14:04:42 · 518 阅读 · 0 评论 -
(三)爬取百度帖子(完善)
# -*- coding:utf-8 -*- import urllib import urllib2 import re #百度贴吧 class BDTB: #初始化,传入基地址,是否只看楼主的参数 def __init__(self,baseUrl,seeLZ): self.baseURL = baseUrl self.seeLZ = '?s原创 2017-09-27 19:31:26 · 449 阅读 · 0 评论