ELK Stack
文章平均质量分 93
ELK Stack,小白入门实践之路。
haixwang
。。。。。。
展开
-
ElasticSearch多线程写入实战(一)多线程同步异步写入ES,模拟hadoop文件拆分处理,join与CountDownLatch的区别,多线程读写小练习
数据预处理1、网站爬取数据,写为csv 2、添加表头 sed -i ‘1i\时报错: sed: -i may not be used with stdin mac中应该写为:【mac自带的sed命令,是基于bsd的,所以与Linux-like下常用的gnu不一样】sed -i "" '1i\insert value here'原创 2018-08-09 00:47:30 · 7840 阅读 · 0 评论 -
Elasticsearch数据全量导入HBase,scroll的正确使用姿势,HBase数据到Hive
1、代码相关文章: elasticsearch数据到hive、es-hadoop6.3.0 Hbase Java API简单实践(附源代码解释) 按照惯例,先上代码 (代码还有很多可以优化的地方,待正式工作了,有了更海量的需要处理的数据,更复杂的应用场景,我再回来更新此文。)只贴出Es用scroll方式读取数据以及批量写入HBase的核心代码,其他工具类、方法,比如es、HBase...原创 2018-08-16 22:31:57 · 2898 阅读 · 1 评论 -
elasticsearch数据到hive、es-hadoop6.3.0
同一模块中日志输出到不同文件elasticsearch数据到hive思路1思路2安装ES-hadoop添加jar包到hivees数据导入到hive的最基础设置es数据导入到hive进阶之mapping设置es数据导入到hive进阶之array相关文章参考同一模块中日志输出到不同文件需求:项目的同一个子模块下,已经配置过日志输出,现在...原创 2018-08-06 00:17:44 · 6891 阅读 · 2 评论 -
elasticsearch进阶(二)错误问题汇总
这篇文章用来记录今后的elasticsearch错误。2018/7/1以下三条记录源于5台机器导入近3亿条文档1.集群压力大,某台机器失去“心跳”后,其他机器好像总找不回它,导致数据无法继续传输 查看日志,是说9300拒绝连接,想不明白,怎么会拒绝连接?很显然与防火墙无关,果然,关了防火墙依然有出现这种情况的可能。 【我感觉还是9300的写入压力太大?】目前既没有找到好的解...原创 2018-07-01 16:45:17 · 4632 阅读 · 0 评论 -
Elasticsearch进阶(一)写入性能基准测试写入性能优化(56小时到5小时),chunk_size探讨
进入正题之前,解决之前的一个疑问:Elasticsearch集群是否已经正确工作?截图时,只上传过一次数据(143万条),设置为:"number_of_shards": 5,"number_of_repl原创 2018-06-28 22:34:40 · 13979 阅读 · 0 评论 -
升级Centos的Python版本,安装使用elasticSearch-py,bulk跳过错误文档
升级服务器(centos6.9)Python2.6.6到2.7.15Python -Vcd /optwget --no-check-certificate https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tar.xztar -xf ./Python-2.7.15.tar.xz【报错】:tar (child): xz...原创 2018-06-28 10:54:37 · 1462 阅读 · 0 评论 -
ElasticSearch(十二)——无文档ID的Json文件批量导入(Java/Python)
现在有这么一个需求: 几十G的JSON文件,每份文件的字段不一定完全相同。1.最初的思路是: - 先直接使用_bulk API导入ES, - 借鉴自动导入的mapping,修改mapping - 再次导入2.结果使用_bulk API导入ES时报错: curl -H 'Content-Type: application/x-ndjson' -XPOST '172.21.*****...原创 2018-06-27 22:33:34 · 5701 阅读 · 2 评论 -
记一次elasticsearch集群升级以及x-pack安全实践
一、elasticsearch6.3.0 1.由于之前安装的5.6.8的版本没有实质性的使用,也就是说没有数据。故没有进行任何数据迁移的操纵,仅是安装了一个新的ES版本,想升级6.3版本的原因是:原生的SQL功能。2.curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.0.tar....原创 2018-06-25 20:23:19 · 6815 阅读 · 0 评论 -
mapping与使用_reindex进行数据"迁移"
type中可以指定的类型:字符串:text,keyword 数字:byte、short、integer、long、float、double、 时间:date 布尔值: true、false 数组: array 对象: objectElasticsearch独有的类型: 多重: multi 经纬度: geo_point 网络地址: ip 堆叠对象: nested objec...原创 2018-06-07 17:44:30 · 4204 阅读 · 3 评论 -
mac/win——测试Python/Java导入CSV文件到ElasticSearch
utils—配置类package util;import java.io.IOException;import java.io.InputStream;import java.util.HashMap;import java.util.Map;import java.util.Properties;/** * <p>package: util,descirptio...原创 2018-06-06 21:19:01 · 2103 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(八)关于ES集群master选举的几个关键参数的小测验
环境:5台安装elasticsearch-5.6.8centos6.9的机器~5节点的discovery.zen.minimum_master_nodes: 的值都设置为3时,依次启动每台机器,启动不了任何一个节点,因为最先启动的节点发觉它启动的时候没有master节点,即使是它有成为master的资格,但是因为此时集群中没有其他节点为它“投票”[非zookeeper实现],所以启动失败;【但...原创 2018-05-20 22:13:12 · 11040 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(七)部分java api+停用词+同义词
1.数据来源于 2.加载数据: curl -s -XPOST http://172.22.112.1:9200/_bulk --data-binary @elasticsearch.txt-S:显示错误,-s静默模式 【上传数据时,中途kill,不会部分上传成功,皆失败】3.设置分词器 在没有设置分词器之前,ES会将汉字单个切分(当安装完Elasticsearch之后,默认已...原创 2018-05-19 00:26:14 · 4589 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(六)聚合Aggregation
简介1.聚合可以看作是对查询结果的汇总。aggregation的强大在于它能嵌套并实现多级汇总。通常分为四类聚类:metric、bucket、pipeline、matrix2.bucket和SQL的group by作用类似,常于metric结合使用,bucket是可以嵌套的;metric是对bucket中的一些统计信息;matrix在多字段上进行操作,从请求的文档的字段中提取信息,返回矩阵...原创 2018-05-17 23:46:35 · 2991 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(五)词项/术语检索和跨度查询
词项检索term、terms、range、prefix略注意range中的dateformat和时区查询wildcardwildcard查询允许在要查询的内容中使用通配符*和?# wildcardPOST /chinese_data/poi/_search?pretty{ "query": { "wildcard": { &a原创 2018-05-12 22:55:33 · 1486 阅读 · 0 评论 -
ElasticSearch初探之(四)操作集合思维导图
不断更新修正中原创 2018-05-07 23:36:21 · 1158 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(三)复合查询及全文查询
must,must_not,should关于bool query:mustfiltershouldmust_not综合term与match的区别:match_all,match,match_phrase,match_phrase_prefix,multi_match,multi_mutchmatch_allmatchmatch_phrasematch_phrase...原创 2018-05-05 18:21:51 · 12226 阅读 · 1 评论 -
ElasticSearch初探之所有初次使用记录(二)kibana基础使用,批量导入数据,显示部分字段,排序,高亮,架构图
这篇文章是两个较为完整的从建立索引——批量导入数据——基本检索——DSL检索——kibana可视化的实践。使用高德的poi数据集以及官方的accounts数据集。为了熟悉下过程,并尽快成功“体验”,先使用官方的数据集数据集介绍及基本操作借鉴自官网 1.这里没有提前建立索引,直接导入数据,会自动生成索引以及映像 curl -XPOST 172.22.112.1:9200/ban...原创 2018-05-04 18:55:15 · 5697 阅读 · 0 评论 -
ElasticSearch初探之所有初次使用记录(一)
2018-4–281.第一次使用kibana时,需要指定一个ES索引,该索引会被置为默认索引(索引多了后可以修改默认值),框里的默认值是logstash-,因为kibana默认我们是通过logstash导入elasticsearch的数据。如果有时间序列字段,可以在Time Filter field name 下填入2.kibana左上角的discover中,我们可以使用Lucene查询语...原创 2018-04-29 00:29:03 · 1871 阅读 · 0 评论 -
linux中安装elasticsearch5.6.8及其组件/插件
windows安装elasticsearch5.6.8及其插件见:注:为了节约时间,这篇博客就只写操作,就不做过多解释了; windows中安装见: elasticsearch体验——在windows10上安装配置以及插件安装配置github上elasticsearch的doc链接 elastic上guide链接安装elasticsearch5.6.81.tar -zxvf elasticse原创 2018-03-09 10:17:56 · 3735 阅读 · 9 评论 -
elasticsearch体验——在windows10上安装配置以及插件安装配置
环境与版本安装步骤安装elasticsearch1.安装kibana2.安装head参考环境与版本操作系统:windows 10-1709 Elasticsearch 版本:5.6.8(考虑到6.x版本太新,往生产环境放的话,出现问题社区资料可能充足。版本太低又怕影响之后与hadoop集群的交互。) Java 版本:1.8.0_92 在方便wind...原创 2018-03-07 21:22:37 · 6598 阅读 · 0 评论