- 博客(4)
- 收藏
- 关注
转载 WebMagic Doc
Doc: http://webmagic.io/docs/zh/Git Source: https://github.com/code4craft/webmagic4.2 使用Selectable的链式APISelectable相关的链式API是WebMagic的一个核心功能。使用Selectable接口,你可以直接完成页面元素的链式抽取,也无需去关心抽取的细节。
2016-12-09 15:29:48
839
转载 WebMagic架构
Doc: http://webmagic.io/docs/zh/Git Source: https://github.com/code4craft/webmagic1.2 总体架构WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载
2016-12-09 15:22:07
850
转载 Scrapy 资料链接
http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.htmlhttp://www.jianshu.com/p/a8aad3bf4dc4
2016-12-09 15:11:15
253
转载 xpath入门
选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.
2016-12-09 14:25:33
268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅