- 博客(8)
- 收藏
- 关注
原创 scrapy&爱问知识人
这次是使用scrapy爬取爱问知识人 一、scrapy的简介 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类。 是一个为遍历爬行网站、分解获取数据而设计的应用...
2018-12-07 20:41:09
206
原创 爬取艺龙酒店评论
这次是爬取艺龙酒店的评论并写入数据库和txt文档 这次爬取和上一篇爬取的孔夫子旧书网差不多,这次是爬取的是所有的酒店的所有评论。 在本次爬取写入数据库时,出现了一些问题,就是评论中的表情存不进去数据库。如果你也遇到了此类问题,可以参考以下我的处理方法: #删除颜表情 def remove_emoji(comment,restr=''): #过滤表情 try: co ...
2018-12-02 12:50:34
1204
原创 爬取孔夫子旧书网的评论
这次带来的是爬取孔夫子旧书网的书店评论,并写入txt文档和数据库 这个用到了json模块 json模块是格式转换模块,json是为了将爬取下来的评论网页解析成Python方便处理的字典格式。json有.load()和.loads(),dump()和dumps()这几种方法。 loads()是将json格式转换成Python方便处理的字典格式。 dumps()方法是将Python的字典格式转换成j...
2018-11-25 14:35:46
728
1
原创 python写入MySQL数据库
这次给大家带来的是将python爬取的数据写入数据库 将爬取得数据写入数据库的步骤: 连接数据库; 创建表 将数据写入数据库; 关闭数据库。 1.连接数据库 在连接自己的数据库之前我们应先导入import MySQLdb模块 host:自己的主机号,一般写127.0.0.1就可以了 port:端口号 user:root passwd:密码 db:连接的数据库名称 charset:编码 ...
2018-11-15 21:22:05
25637
2
原创 爬取小说
这次带来的是爬取一个网站的多个页面的小说并每本小说写入一个txt文档 获取网站网址 爬取小说的链接 爬取目录的链接 爬取各章小说的目录和内容 1.网站网址 http://www.biquge.com.tw/ 2.爬取小说的链接 爬取小说的链接可以获取到每本小说,链接作为获取目录链接的入口 url1 = 'http://www.biquge.com.tw/' html = requests.ge...
2018-11-11 13:19:50
919
1
原创 bs4爬取漫画并写入TXT文档
今天带来的是爬取漫画网站上的漫画信息及其链接 这次会用到bs4,也就是Beautiful Soup 我们先介绍一下**Beautiful Soup**: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 对象种类可以归纳为四种:...
2018-11-04 17:54:24
725
原创 Python爬取多页糗事百科
这次带来的是如何爬取糗事百科 且 写入txt文档 大家都知道,糗事百科可以带给大家很多快乐。 在这里,我们将实现对其内容的爬取,将这些好笑的段子记录下来,可以让我们打发无聊或没网时的时间。 当爬取我们想要的内容时,几乎都离不开这几个步骤: 1、网站地址; 2、获取其源代码; 3、匹配想要的内容 一、网站地址 我们爬取的是糗事百科里的段子,所以糗事百科的网址奉上(https://www.qiushi...
2018-11-04 17:51:26
269
原创 爬取百度贴吧图片
本次文章内容是爬取贴吧图片,希望对大家有所帮助 一、 获取要爬取的贴吧的网址 打开浏览器,找到我们想爬取的贴吧,获取其网址 ![在这里插入图片描述](https://img-blog.youkuaiyun.com/20181018195737362?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQzNDQ1...
2018-10-19 22:07:02
443
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人