
大数据
yuyingting5
这个作者很懒,什么都没留下…
展开
-
kafka集群配置
Kafka集群配置比较简单,为了更好的让大家理解,在这里要分别介绍下面三种配置 单节点:一个broker的集群单节点:多个broker的集群多节点:多broker集群 一、单节点单broker实例的配置 1. 首先启动zookeeper服务 Kafka本身提供了启动zookeeper的脚本(在kafka/bin/目录下)和zookeeper配置文件转载 2017-09-27 14:15:10 · 181 阅读 · 0 评论 -
深入理解Hadoop集群和网络
原文出处: bradhedlund 译文出处:kickxxx 本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群,那么我希望你能写下有价值的评论。 Hadoop集群部署时有三个角色:Client转载 2017-12-01 17:10:35 · 294 阅读 · 0 评论 -
lucence
Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么 另外,如转载 2017-11-22 10:59:33 · 563 阅读 · 0 评论 -
maven项目中添加自己的jar包
本文又是帮助我老年人记忆的文章。不过,对于初学者应该也是有帮助的。其实,我也是个初学者。嘿嘿~~~ 不废话了,step by step: 假如,你有一个已经下载或者编译好的jar包(本地),如何加入到maven的项目中? PS:本人是在linux操作系统 举例子吧: 别人实现了bloom-filter算法,转载 2017-11-30 18:11:56 · 7425 阅读 · 0 评论 -
maven项目连接hbase中pom.xml
org.apache.hbase hbase-client 1.3.1原创 2017-11-30 18:01:30 · 6430 阅读 · 0 评论 -
eclipse 创建maven项目
eclipse里面构建maven项目详解(转载) 本文来源于:http://my.oschina.net/u/1540325/blog/548530 eclipse里面构建maven项目详解 1 环境安装及分配 Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。Maven主要服务于基于java平台的项目构建、依赖管转载 2017-11-29 15:25:28 · 313 阅读 · 0 评论 -
solr
solr 企业站内搜索技术选型 在一些大型门户网站、电子商务网站等都需要站内搜索功能,使用传统的数据库查询方式实现搜索无法满足一些高级的搜索需求,比如:搜索速度要快、搜索结果按相关度排序、搜索内容格式不固定等,这里就需要使用全文检索技术实现搜索功能。 单独使用Lucene实现 单独使用Lucene实现站内搜索需要开发的工作量较大,主要表现在:索引维护、索引性能优化、搜索性能转载 2017-11-17 11:59:30 · 173 阅读 · 0 评论 -
sorl
转载请注明出处:http://www.cnblogs.com/zhuxiaojie/p/5764680.html 本教程基于solr5.5 前言 至于为什么要用solr5.5,因为最新的6.10,没有中文的分词器支持,这里使用的是ik分词器,刚好支持到5.5 ik分词器下载地址 :https://github.com/EugenePig/ik-analy转载 2017-10-31 13:09:02 · 433 阅读 · 0 评论 -
Flume组件汇总 source、sink、channel
一、Flume Source Source类型 说明 Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source 基于Unix的command在标准输出上生产数据 JMS Source 从JM转载 2017-10-13 10:38:16 · 423 阅读 · 0 评论 -
hbase基本概念
wsdasgdfh转载 2017-09-28 16:41:09 · 316 阅读 · 0 评论 -
安装kafka
1. 简介 kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。 i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称作broker。 ii. 多个broker协同合作,producer、consumer和broke转载 2017-09-27 14:20:14 · 153 阅读 · 0 评论 -
lucence 各种 Field
Lucene的Field说明 Lucene存储对象是以document为存储单元,对象中相关的属性值则存放到Field中; lucene中所有Field都是IndexableField接口的实现 [html] view plain copy org.apache.lucene.index.IndexableField转载 2017-11-24 13:35:30 · 2423 阅读 · 1 评论