
Java网页爬虫
记录如何使用Java对网页数据进行爬取。
pengjunlee
不学自知,不问自晓,古今行事,未之有也。
展开
-
jieba中文分词组件
目录jieba简介组件特点安装方法算法使用jieba分词添加自定义词典载入词典调整词典关键词提取基于 TF-IDF 算法的关键词抽取基于 TextRank 算法的关键词抽取词性标注并行分词Tokenize:返回词语在原文的起止位置默认模式搜索模式ChineseAnalyzer for Whoosh 搜索引擎命令行分词延...原创 2019-05-21 18:16:27 · 28602 阅读 · 0 评论 -
jieba中文分词组件的词性类型
jieba 中文分词组件具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直...原创 2019-05-15 17:43:19 · 28602 阅读 · 0 评论 -
Java网页爬虫--基于URLConnection的网页爬虫工具类
在这个数据为王的时代,爬虫应用地越来越广泛,对于一个萌新程序员来说如果你要做爬虫,那么Python是你的不二之选。但是对于那些老腊肉的Java程序员(亦或者你是程序媛)想使用Java做爬虫也不是不行,只是没有Python那么方便。身为一块Java老腊肉的我在此记录一下自己在使用Java做网络爬虫使用的工具类。在pom.xml文件中引入commons-lang3 依赖: <depe...原创 2018-12-26 09:56:31 · 40842 阅读 · 0 评论 -
HttpURLConnection中使用Cookie
目录CookiePolicyCookieHandlerCookieManager原文作者:jijs 链接:https://www.jianshu.com/p/7a18524f1bfa 链接:https://www.jianshu.com/p/8767434fac92如果想通过 HttpURLConnection 访问网站,网站返回co...转载 2018-12-05 09:09:26 · 44938 阅读 · 1 评论 -
Java爬虫获取天猫商品类目
本文将示例如何使用 SpiderHttpUtils 来爬取某知名*猫平台的商品分类信息。类目爬取的完整代码如下:import java.text.MessageFormat;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.regex.Matcher;impo...原创 2018-12-28 10:07:13 · 51073 阅读 · 0 评论 -
使用HttpClient模拟登陆并爬取网页
在使用Java进行网页爬虫时经常需要携带登陆的 Cookie 信息,然而 Cookie 是有时效性的,所以经常会碰到 Cookie 失效的情况。如何在 Cookie 失效后自动重新获取成了爬虫急需解决的难题。本文将示例如何使用 HttpClient 模拟登陆某知名猫平台并获取其登录的 Cookie 信息。pom.xml 文件中引入HttpClient 依赖包: <!-- h...原创 2018-12-26 09:56:07 · 45846 阅读 · 9 评论 -
使用URLConnection爬取评论
本文将示例如何使用 SpiderHttpUtils 来爬取某知名*猫平台的评论信息。以 https://detail.tmall.com/item.htm?id=18539499729 宝贝为例,使用Fiddler抓包工具获取到它的评论请求地址如下,其中的 currentPage 参数即为被爬取的评论的页码。pom.xml 文件中引入依赖包: <parent> ...原创 2019-02-10 11:08:53 · 31843 阅读 · 0 评论 -
Java中文分词组件 - word分词
目录API在线文档:编译好的jar包下载(包含依赖):Maven依赖:分词使用方法:分词算法效果评估:相关文章:word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动...转载 2019-02-10 16:17:50 · 35839 阅读 · 2 评论