这个项目主要是分析一个页面的深度链接值,然后进行相应的抓取.目前已经完成了[b]单页面抓取操作方法的封装[/b]
Python操作MySQL的库是MySQLdb:
在[url=http://sourceforge.net/projects/mysql-python]这里[/url]可以找到更多信息和下载.
高效的协议分析可以参考[url=http://curl.haxx.se/]curl[/url],[url=http://curl.haxx.se/]PyCurl[/url]是其一个python封装.
项目放置在[img]http://code.google.com/hosting/images/code_sm.png[/img]上,采用MIT协议分发.如果有兴趣加入,可以发邮件至myctrls@gmail.com和我联系.
项目地址[url=http://code.ibd.ac.cn]http://code.ibd.ac.cn[/url]
SVN checkout:[url=https://xspider2.googlecode.com/svn/trunk/]https://xspider2.googlecode.com/svn/trunk/[/url]
最后感谢很多在我学习和实践python道路上帮忙的很多朋友们.
附图是xspider2的结构图.
(import graspContent.py)以及[b]MySQL数据库连接[/b](import link_db.py).Python操作MySQL的库是MySQLdb:
MySQLdb is the Python DB API-2.0 interface. _mysql is a low-level API similiar to the MySQL C API. ZMySQLDA is a Database Adapter for Zope2.在[url=http://sourceforge.net/projects/mysql-python]这里[/url]可以找到更多信息和下载.
高效的协议分析可以参考[url=http://curl.haxx.se/]curl[/url],[url=http://curl.haxx.se/]PyCurl[/url]是其一个python封装.
项目放置在[img]http://code.google.com/hosting/images/code_sm.png[/img]上,采用MIT协议分发.如果有兴趣加入,可以发邮件至myctrls@gmail.com和我联系.
项目地址[url=http://code.ibd.ac.cn]http://code.ibd.ac.cn[/url]
SVN checkout:[url=https://xspider2.googlecode.com/svn/trunk/]https://xspider2.googlecode.com/svn/trunk/[/url]
最后感谢很多在我学习和实践python道路上帮忙的很多朋友们.
附图是xspider2的结构图.
该项目介绍了一个用于网页抓取的框架,已完成单页面抓取及数据库连接功能的封装,并使用Python操作MySQL的库MySQLdb。此外,还提供了高效协议分析工具curl和PyCurl的参考。
456

被折叠的 条评论
为什么被折叠?



