
网络爬虫
分享网络爬虫所学的知识与所做的实践
成长的小牛233
不辜负每一份热爱
展开
-
去除html,获取某个标签里面内容
Document document = Jsoup.parse(content); Elements ps = document.getElementsByTag("p");//要解析的标签 String pText = ""; for(Element p: ps){ pText = pText + p.te...原创 2020-03-17 14:10:01 · 553 阅读 · 0 评论 -
【使用注意】Jsoup的select方法
之前做了一个频道抓取:获取div Elements div_e; div_e = doc.select("div"); Iterator<Element> div_it = div_e.iterator(); while (div_it.hasNext()) { 处理逻辑 }我是想通过select ...原创 2019-04-03 10:35:55 · 555 阅读 · 0 评论 -
爬虫中如何获取页面编码类型
获取页面的编码格式的三种方式:根据Response中的header获取编码格式根据页面标签中的meta获取根据页面内容识别自动识别出编码格式,经过测试准确率比较高三种方式可以结合使用,由于inputStream不能够被复用,但是inputStrem没有clone方法也导致无法克隆因此需要流转化,这种方式多重比较需要重复进行流转化。依赖包我的资源工具类/** * 获取页面的编码格式 1.根据Response中的header获取编码格式 2.根据页面标签中的meta获取 3.根原创 2020-12-03 11:15:20 · 796 阅读 · 0 评论 -
webmagic抓取实例
git地址:https://github.com/code4craft/webmagic/tree/master/webmagic-samples/src/main/java/us/codecraft/webmagic/samples原创 2019-11-04 12:00:44 · 347 阅读 · 0 评论 -
【爬虫】爬取带有cookie才能获取网页内容的新闻网站
工作任务:今天老大让我跑取一个新闻网站:https://www.yidaiyilu.gov.cn/采坑记录:https协议,如果利用http协议去请求会报出如下信息:错误:SSLHandshake错误就知道了,客户端与服务端进行连接时,需要通过SSL协议进行握手(坑)改用:重写DefaultHttpClient方法使其支持SSL协议package httpsParse...原创 2019-05-07 23:27:31 · 2345 阅读 · 0 评论 -
python安装Scrapy踩过的坑以及安装指导
在pyCharm中的setting中直接添加包然后报错,然后利用window控制台pip install 报错异常:Command "python setup.py egg_info" failed with error code 1第一步:准备更新pip,利用以下指令python -m pip install --upgrade pip注意:这种方式抛出了异常:A...原创 2019-04-04 16:26:48 · 268 阅读 · 0 评论 -
k-shingles和MinHash优秀文章保存
minhash原理解释:https://www.cnblogs.com/sddai/p/6110704.htmlk-shingles和minhash使用原理:https://blog.youkuaiyun.com/aspirinvagrant/article/details/41281101代码java实现:https://blog.youkuaiyun.com/remoa_dengqinyi/article/d...原创 2019-03-03 20:07:57 · 555 阅读 · 0 评论 -
WebMagic写的网络爬虫优秀文章
博客地址:https://www.cnblogs.com/yanduanduan/p/6527359.htmlhttps://www.cnblogs.com/tibit/p/7136762.htmlhttps://blog.youkuaiyun.com/qq_36251958/article/details/79313035#commentBox原创 2018-10-17 15:11:54 · 221 阅读 · 0 评论 -
【转载保存】Jsoup使用
https://blog.youkuaiyun.com/ricky73999/article/details/54989972转载 2018-10-30 18:09:10 · 215 阅读 · 0 评论 -
HtmlUnit优秀文章
博客地址:https://www.cnblogs.com/davidwang456/articles/8693050.html转载 2018-10-17 14:58:11 · 161 阅读 · 0 评论 -
【转载保存】Selenium Webdriver元素定位的八种常用方式
转载地址:https://www.cnblogs.com/qingchunjun/p/4208159.html原创 2018-11-22 11:59:56 · 276 阅读 · 0 评论 -
【转载保存】webCollector使用教程
github:https://github.com/CrawlScript/WebCollectorgitee(里面新闻的例子不错): https://gitee.com/education原创 2018-11-13 16:25:58 · 698 阅读 · 0 评论 -
【转载】Jsoup设置代理ip访问
转载地址:https://blog.youkuaiyun.com/qq_36980713/article/details/80913248import java.io.IOException;import java.util.*;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;impo...转载 2018-11-13 11:37:03 · 3277 阅读 · 0 评论 -
【优秀文章保存】webcollector抽取新闻正文
jar包下载:https://github.com/CrawlScript/WebCollector/blob/master/webcollector-2.73-alpha-bin.zip使用介绍(超详细):https://blog.youkuaiyun.com/wangmx1993328/article/details/81667284?utm_source=blogxgwz0#commentBox网页...原创 2018-11-12 17:19:35 · 352 阅读 · 0 评论 -
WebMagic学习总结
概念介绍:http://448230305.iteye.com/blog/2145296入门教程:https://blog.youkuaiyun.com/zhengmengjia/article/details/42028283#commentBox别人的开源项目(里面有jar包,不用麻烦去找了):https://github.com/liyifeng1994/webmagic-csdnblog...原创 2018-11-12 15:10:52 · 411 阅读 · 0 评论 -
java网络爬虫视频教程下载
http://www.java1234.com/javapachongxuexiluxiantu.html原创 2018-11-12 10:55:26 · 4134 阅读 · 2 评论 -
java多线程爬虫框架crawler4j的使用
一开始找jar包找了好久都没找到,后来花了6个积分把所有的依赖包找到了,现在放在百度云供大家免费下载:链接:https://pan.baidu.com/s/12MTMy4d4e6hZsmWAdXbUMQ提取码:433g注意这些依赖包是3.5版本的不是最新版本。如果想使用最新版本的可以在github中找pom.xml下载,但是我自己尝试的时候下载不全,github优秀项目地址:https:...原创 2018-11-11 20:54:52 · 518 阅读 · 0 评论 -
【转载保存】Selenium WebDriver API常用方法
详细:https://blog.youkuaiyun.com/yjlch1016/article/details/78115813#commentBox中文API:https://blog.youkuaiyun.com/m0_37831339/article/details/81206427原创 2018-11-08 15:06:57 · 170 阅读 · 0 评论 -
相对路径转成绝对路径
public static String getAbsoluteURL(String baseURI, String relativePath) { String abURL = null; try { URI base = new URI(baseURI);// 基本网页URI URI abs = base.resolve(relativePath);// 解析于上述网页的...原创 2018-11-08 14:52:25 · 2424 阅读 · 0 评论 -
【转载保存】Java+Selenium使用
环境搭建:https://blog.youkuaiyun.com/u011541946/article/details/72898514问题解决:https://blog.youkuaiyun.com/u010366748/article/details/72872190转载 2018-11-07 13:08:36 · 630 阅读 · 0 评论 -
jsoup的Elements类
一、简介该类是位于select包下,直接继承自Object,所有实现的接口有Cloneable, Iterable, Collection, List类声明:public class Elements extends Object implements List, Cloneable可以使用Element.select(String) 方法去得到Elements 对象。二、构造方法1、p...原创 2018-11-01 21:14:03 · 446 阅读 · 0 评论 -
【转载保存】获取页面编码
https://blog.youkuaiyun.com/u010061897/article/details/9116879转载 2018-11-01 19:30:55 · 170 阅读 · 0 评论 -
【转载保存】网页提取正文算法汇总
正文抽取算法:1.Html2Article :http://www.cnblogs.com/jasondan/p/3497757.html2.基于行块分布函数的网页正文抽取算法代码实现https://blog.youkuaiyun.com/leiguang55555/article/details/51959646源码下载:https://blog.youkuaiyun.com/red4711/article/d...转载 2018-11-01 17:16:29 · 1537 阅读 · 0 评论 -
【转载保存】Jsoup解析html常用方法
首先我们要清楚 class的继承关系Document 继承于 Element 继承于 Node 继承于 Object首先 我们先研究一下 Element 中的函数作用:01 addClass(String className) --> 添加一个class名字 到这个元素的class属性上.02 after(Node node) &nb...转载 2018-11-01 10:19:50 · 314 阅读 · 0 评论 -
【转载保存】Java丨jsoup网络爬虫登录得到cookie并带上cookie访问
https://www.cnblogs.com/haojieli/p/5554895.html原创 2018-10-31 21:31:43 · 6835 阅读 · 7 评论 -
【转载保存】cookie在登录时的使用
地址:https://blog.youkuaiyun.com/df19900725/article/details/78066468?locationNum=4&amp;fps=1转载 2018-10-31 20:42:17 · 143 阅读 · 0 评论 -
【转载保存】HtmlUnit的使用
信息来源:https://blog.youkuaiyun.com/moneyshi/article/details/78799949https://blog.youkuaiyun.com/qq_36176250/article/details/77199595转载 2018-10-30 22:18:31 · 363 阅读 · 0 评论