
java爬虫
私念Moposion
这个作者很懒,什么都没留下…
展开
-
XPath
XPath简介XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准XPath节点在XPath中,有其中类型的节点:文档节点(根节点)、元素、属性、文本、命名空间、处理...原创 2019-04-22 10:28:21 · 162 阅读 · 0 评论 -
POI对Excel文档的读写
POI概述Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。HSSF - 提供读写Microsoft Excel格式档案的功能。XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。HWPF - 提供读写Microsoft Word格式档案的功能。HSLF - ...原创 2019-04-29 08:59:12 · 124 阅读 · 0 评论 -
反爬手段以及应对的方法
反爬手段以及应对的方法限制IP限制Cookie概念搜狗微信公众号文章的爬取前言weixin.sogou.com 是一个反爬极其严厉的站点。ip地址,cookie,验证码都有限制。尤其对cookie的限制爬取 sogou.weixin.com 的 HTTP 请求的 Cookie 中,必须包含四个参数:SNUID 、SUID、ppinf 和ppmdig。其中 SNUID 和 SUID...原创 2019-05-29 16:57:23 · 491 阅读 · 0 评论 -
HtmlUnit的使用
HtmlUnit的使用简介HtmlUnit是一个无界面浏览器Java程序。它为HTML文档建模,提供了调用页面、填写表单、单击链接等操作的API。就跟你在浏览器里做的操作一样。HtmlUnit不错的JavaScript支持(不断改进),甚至可以使用相当复杂的AJAX库,根据配置的不同模拟Chrome、Firefox或Internet Explorer等浏览器。HtmlUnit通...原创 2019-05-29 16:58:29 · 16242 阅读 · 0 评论