
工作记录
civis_小何
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
单点小说作品库(下)
上文记录完爬虫和页面解析模块,下面首先介绍存储模块: 鉴于导师要求,存储使用nosql数据库:mongodb。还好此数据库比较好学,笔者在安装后,简单学习了一下,立即写出的存储程序。将小说数据全部存放到一个表中(mongodb成为collection,集合),一个小说建立一条记录(称文档),记录中存放各个字段。程序如下: #!/usr/bin/env python # -*- coding:原创 2015-01-26 11:59:31 · 598 阅读 · 0 评论 -
单点小说作品库(上)
这个小项目是笔者入职后第一个练手的任务,实现的功能是:从单个小说网站搜集小说数据,解析这些数据后存储到数据库中,然后提供访问数据的接口。实现这些大功能就需要四个模块:爬虫、页面解析器、数据库存储和数据访问接口。 首先,来说说爬虫。对于一个小白程序员,写不了专业的分布式多点爬虫,就简单的实现了一个单点爬虫(参考《Python核心编程》),由于要搜集数据的小说网站17k的web页面连接具有稳定的规律原创 2015-01-26 11:14:32 · 784 阅读 · 0 评论