Django是web框架,python写的,搭配Scrapy,可以实现抓取页面
可以参考这种配置:
linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。
http://www.searchtb.com/2011/07/%E5%BF%AB%E9%80%9F%E6%9E%84%E5%BB%BA%E5%AE%9E%E6%97%B6%E6%8A%93%E5%8F%96%E9%9B%86%E7%BE%A4.html
今天想在c++程序里调用scrapy,用批处理方式或者CreateProcess创建进程的方式可以调用cmd命令,但一开始运行显示:scrapy不是内部命令或运行程序,后来发现python26\Srcipts目录下的scrapy.bat的作用是 将 scrapy作为可直接运行的命令,所以就在原来的批处理文件中,先运行scrapy.bat,再运行scrapy crawl 等命令。
本文详细介绍了如何在C++程序中通过批处理或CreateProcess方式调用Scrapy,包括解决命令未找到问题及具体操作步骤。
394

被折叠的 条评论
为什么被折叠?



