
爬虫
QuietHRH
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫(三) redis&分布式爬虫
redis redis, 称为内存数据库, 以key-value的形式存放数据, 是一个非关系型数据库 redis 提供类丰富的数据类型, 其有 string list map set sortSet 五种数据类型 redis 的数据类型指的是value的数据类型, key都是String类型的 1. 持久化 RDB (默认打开): 是一种基于快照机制来实现的持久化的方案, 可以把快...原创 2018-09-25 09:35:17 · 476 阅读 · 0 评论 -
Lucene
搜索引擎 1. 运行原理 2. 倒排索引 倒排索引, 又称为反向索引: 以字或者词,甚至是一句话一段话作为一个关键字进行索引, 每一个关键字都会对应着一个记录项, 记录项中记录了这个关键字出现在那些文档中, 已经在此文档的什么位置上 为什么说倒排索引可以提升查询的效率和精准度呢? 倒排索引, 是将数据提前按照格式分词放好,建立索引, 当用户进行搜索, 将用户的关键字进行分词, 然后根...原创 2018-09-26 10:43:50 · 982 阅读 · 0 评论 -
爬虫(二)
线程 1. 实现方式 继承Thread类 实现Runnable接口 通过callable和future 实现有返回值的线程 public static void main(String[] args) throws Exception { //Callable的返回值就要使用Future对象,Callable负责计算结果,Future负责拿到结果 //1、实现Callab...原创 2018-09-21 20:39:23 · 368 阅读 · 0 评论 -
Java爬取京东商品数据
爬取京东商品数据 我把项目部署到了linux中,进行爬取,爬到了3000条手机信息,只是爬了一些简单的文本信息. 本文爬取的数据为京东手机信息 准备工作 导入爬取数据需要的依赖包 编写httpClient工具类 编写pojo类 编写dao <dependencies> <dependency&g原创 2018-09-21 22:44:26 · 6179 阅读 · 5 评论 -
solr-
solr配置文件 1. solrConfig.xml : solr核心配置文件 2. schema.xml : solr约束文件 <!--第一种标签为 field标签: 主要是用来指定字段名称的, Lucene中是有用户在程序中指定, solr中需要提前在配置文件中指定--> <field name="text" type="text_general"原创 2018-09-27 20:23:16 · 308 阅读 · 0 评论 -
solr-cloud介绍&基于Zookeeper部署搭建&使用
1. solrCloud基本概念 1.1 什么是solrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求。 1.2 solrCloud的结构 SolrCl...原创 2018-09-28 10:51:14 · 993 阅读 · 0 评论