
大数据
文章平均质量分 76
刀剑如梦TOTO333
这个作者很懒,什么都没留下…
展开
-
es7分页死亡记录
前言做了个功能,es要查询分页。我用了search api的total hits做了总条数,鱼唇地忽略了search api最多只能查窗口大小条.....直接死亡。踩到的坑Seach Api最多只能查询窗口大小条我们当然可以直接使用search去统计文档数量,只要不指定查询条件,然后查询结果中的total就是文档的总数量。POST vpe_future_price_mid_dimension/_search{"query": {...原创 2021-08-05 17:36:54 · 799 阅读 · 0 评论 -
es7学习笔记 cpu负载不均衡、超长fullGC、大量400报错
ElasticSearch负载不均衡现象:往es7集群中推数时,发生如下情况接口出现很多400 发现集群中某台机器cpu被怼爆 发生fullGC产生400报错的原因是es7做了熔断优化,当jvm内存使用超过阈值,为了避免丑陋的oom,会直接限流并抛出EsRejectedExecutionException。我们强硬的关掉了这个配置,因为我们的推数有失败重试。产生fullGC是因为一个bulk批处理的数据量太大,我们一个文档1.5M,800个文档作为一批,两个线程并行推,jvm内转载 2021-07-22 14:01:18 · 888 阅读 · 0 评论 -
es的批处理
bulk相当于数据库里的bash操作。bulk的格式1. action:index/create/update/deletecreate 如果文档不存在就创建,但如果文档存在就返回错误index 如果文档不存在就创建,如果文档存在就更新update 更新一个文档,如果文档不存在就返回错误delete 删除一个文档,如果要删除的文档id不存在,就返回错误2. metadata:_index,_type,_id3. request body:_source(删除操作不需要加reque.转载 2021-07-19 18:32:35 · 488 阅读 · 0 评论 -
查看索引各分片文档数
1、引言有人可能觉得,查看文档数量不是很简单吗?直接GET /_cat/count/index_name?v不就可以了吗?事实上远不止这么简单,比如嵌套文档的情况等。相信你看了我这篇文章之后你会感叹原来统计文档有这么多讲究啊。2、正文cat/count(无法统计被删除文档)首先是最常用的的方式,也是一种快速查询文档的优先推荐方式,cat count api我们使用kibana自带的电商索引来实验。GET _cat/count/kibana_sample_data_ecomme转载 2021-07-19 11:28:25 · 886 阅读 · 0 评论 -
elasticsearch中 refresh 和flush区别
elasticsearch中有两个比较重要的操作:refresh 和 flushrefresh操作当我们向ES发送请求的时候,我们发现es貌似可以在我们发请求的同时进行搜索。而这个实时建索引并可以被搜索的过程实际上是一次es 索引提交(commit)的过程,如果这个提交的过程直接将数据写入磁盘(fsync)必然会影响性能,所以es中设计了一种机制,即:先将index-buffer中文档(document)解析完成的segment写到filesystem cache之中,这样避免了比较损耗性能io转载 2021-07-06 16:00:08 · 327 阅读 · 0 评论 -
大数据学习记录
hive的四种文件存储格式转载 2021-07-02 12:35:14 · 108 阅读 · 0 评论 -
spark-sql中数据类型比较(double vs decimal)
1、创建表,数据类型是double和decimalcreate external table tmp.tmp_test(amt1 double,amt3 decimal(20,8))STORED AS parquetlocation 'hdfs://reh/user/hive/dev/tmp_dev/tmp_test';2、测试数据为“111111.1232”,查询显示正常:spark-sql> insert overwrite table tmp.tmp_test> s转载 2021-07-02 11:17:58 · 2506 阅读 · 0 评论 -
Elasticsearch 7学习笔记 高阶篇-聚合技术
一 聚合分析之 bucket(分组)&meteric(统计)这一节内容主要是介绍下 bucket(分组)的概念 以及 meteric(聚合统计)概念,其实我们做过开发写过sql的就很容易理解了。然后我们结合案例进行练习和体会不同的bucket,以及不同的meteric,强化我们对分组和聚合统计的理解和记忆。1.1 原理 bucket(分组)与metric(聚合统计)概念理解bucket它是指对一组数据进行分组假设一组数据为:city name北京 小李北京 小王...转载 2021-06-23 17:19:46 · 459 阅读 · 0 评论 -
es7学习笔记 待整理
输入的值精确匹配数组中的某个值如图,我存入了两个文档,nameSet字段是个数组,现在我希望:输入10010,返回文档1 输入10086,返回文档2 输入100,返回空创建文档POST /hello/_doc/1{ "nameSet":["10010","100101","100102"], "name":"10010"}POST /hello/_doc/2{ "nameSet":["10086","100861","100862"], "name原创 2021-06-23 15:18:59 · 216 阅读 · 0 评论 -
es7学习笔记 建表与字段类型(建索引)
待改进转载 2021-06-23 14:30:13 · 2697 阅读 · 0 评论 -
ElasticSearch7 学习笔记
一切都是jsonMysql与es中名词的对应关系Index 对应 MySQL 中的 Database Type 对应 MySQL 中的 Table Document 对应 MySQL 中表的记录 field对应MySQL中表的columnes在后台将每个索引划分成多个分片,分片可以在集群中不同服务器之间进行转移。standalone模式的es,一个人就是一个集群,其集群名字默认为elasticSearch。es文档的特点(Document的特点)document同时包含key:v原创 2021-06-17 22:19:56 · 533 阅读 · 0 评论 -
大数据交互平台HUE的一些优势
本文系统地讲解了Hue作为大数据分析交互平台的优势!欢迎批评指正!Hue Web应用的架构Hue 是一个Web应用,用来简化用户和Hadoop集群的交互。Hue技术架构,如下图所示,从总体上来讲,Hue应用采用的是B/S架构,该web应用的后台采用python编程语言别写的。大体上可以分为三层,分别是前端view层、Web服务层和Backend服务层。Web服务层和Backend服务层之间使用RPC的方式调用。Hue整合大数据技术栈架构由于大数据框架很多,为了解决某个问题,一般来说会用到多个框架转载 2021-06-16 17:01:49 · 1740 阅读 · 0 评论