
爬虫类
小田大梦想
坚持自我,一切皆有可能!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫的第一天---百度贴吧
迷迷糊糊的开端~~1.爬取百度贴吧的小旅途from urllib.request import Request,urlopenfrom urllib import parse# 保存页面def save_page(filename, data): print("正在保存:",filename) with open(filename, 'wb') as f: ...原创 2018-07-03 14:21:49 · 289 阅读 · 0 评论 -
爬虫第二天--美女图片
Happy ~#导入requetsimport requestsurl = "http://mm.chinasareview.com/wp-content/uploads/2017a/07/18/07.jpg"headers = { "Host":"mm.chinasareview.com", "Connection":"keep-alive", "Cache-Contr.原创 2018-07-03 21:36:20 · 512 阅读 · 0 评论 -
爬虫第三天 ---- 内涵吧
脑袋大大,爬的都迷路了~~ 各种段子等你来拿哦~#导入相应的包from urllib.request import Request,urlopen,URLErrorimport re#定义一个类class Spider(object):#爬完之后保存成.txt文件 def save_text(self,text): with open('内涵段子....原创 2018-07-04 18:56:58 · 445 阅读 · 0 评论 -
Xpath的介绍
今日语:实在是不明白xpath的语法,边参考边记录吧~一.Xpath的概念: 它使用路径表达式在XML文档中进行导航 包含一个标准数据库 是XSLT中的 主要元素 是W3C的标准 二.Xpath的节点 共有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及根节点 而XML文档是被当做节点树看待,所以之前还是要认真了解XML...原创 2018-07-05 14:55:35 · 757 阅读 · 0 评论