通用网页数据采集器
此采集器原本是给一个公司定制的产品,后来对方不要了,所以此采集器没有完工。也不是很完善。不完善的地方主要体现在:
1. 没有做定时执行模块
2. 没有做数据入库模块
本采集器采用sqlite作为本地数据库存放一些本地信息和配置信息。使用模拟的HTTP请求获取数据。运行效果截图:
添加数据源(1)

注意:
1. 表名可以随便填写,没有的情况下创建,有的情况下先删除,再创建,记得备份数据
2. 参数可以按照get和post类型分别设置
3. 类型可以设置时间,数字,集合。
4. 第二步之前先点击测试,测试数据是否满足要求
添加数据源(2)

我们得先获取更新时间了,正则表达式不会的先去学习学习
文本预览一下,看看应该怎么写正则表达式。
添加数据源(3)

第三步的主要作用是查找出数据源的最小单位代码
添加数据源(4)

填写解析的规则
第四步完成以后请记得点击提交,保存配置数据
执行代码未写完,有空完善。

再看看其他辅助功能
1. 日志管理
本地日志

数据库日志

邮件系统设置

数据库设置

请注意,这个数据库设置是设置采集后的目标数据入库的数据库类型
日志管理

程序基本就是一个这样子。
总结一下这个项目。
1. 实现了模拟的http请求获取数据,网络上关于12306写得比较好的都是采用这个技术。(我也有个订票软件,呵呵,有空开放出来)
2. 实现了post网页与get网页混合管理,实现了多参数组合,自动分页。
3. 本地数据采用了sqlite数据库(方便无需安装)
4. 实现了日志的本地管理和数据库管理
5. 对采集数据实现了特殊字段数据处理和一般字段数据处理
6. 实现了自动建表过程
7. 对数据采集,入库过程全程实现了邮件监控(使用139邮箱可以变成短信监控)
8. 计划实现定时段订频率执行,当然一定是多线程的。
9. 计划实现历史数据补录
版权bobui所有,可以随意转载,请保留版权信息
本项目为一未完成的网页数据采集器,支持模拟HTTP请求获取数据,并采用SQLite作为本地数据库。具备日志管理功能,可处理多种数据类型,支持自动建表及邮件监控。

被折叠的 条评论
为什么被折叠?



