
爬虫
beirdu
这个作者很懒,什么都没留下…
展开
-
crawler4j_01_authentication
如标题所示,本博文系列是对github上项目crawler4j的分析。第一篇介绍了此项目的验证机制。所写内容只做个人理解记录使用,正确性无法保证。 前言 本博文一共分为两个部分,前四个部分介绍了包含验证信息的“数据类”,第五个部分也是最重要的部分讲解了怎样使用这些类。 crawler4j的验证方式分为三类:对于某个url进行用户名和密码验证的基本验证方式、针对Mi原创 2018-01-07 22:56:01 · 324 阅读 · 0 评论 -
crawler4j_01_authentication
如标题所示,本博文系列是对github上项目crawler4j的分析。第一篇介绍了此项目的验证机制。所写内容只做个人理解记录使用,正确性无法保证。 前言 本博文一共分为两个部分,前四个部分介绍了包含验证信息的“数据类”,第五个部分也是最重要的部分讲解了怎样使用这些类。 crawler4j的验证方式分为三类:对于某个url进行用户名和密码验证的基本验证方式、针对Mi原创 2018-01-09 11:02:49 · 292 阅读 · 0 评论 -
crawler4j_01_parser_ParseData,Parser
前言 本文讲解的第一个部分是parser包中的“解析数据结果类”,即接口ParseData及其实现类,包括BinaryParseData、HtmlParseData和TextParseData。三者之间的关系及包含属性如下图所示: 讲解的第二个部分是实现数据解析的工具类,如Parser、AllTagMapper、ExtractedUrlAnchorPair、ExtractedR原创 2018-01-09 15:27:49 · 1089 阅读 · 0 评论 -
crawler4j_01_parser_WebURL、FetcherResult、Page和ParseData
几个常用的实体类,WebURL存储每个URL的相关数据;PageFetchResult是执行请求后返回结果类;Page存放请求返回结果解析后的内容;ParseData是Page中的一个属性,存放网页解析的内容。详情请见截图原创 2018-01-09 21:33:25 · 371 阅读 · 0 评论