- 博客(59)
- 资源 (9)
- 收藏
- 关注
原创 第一章 概论和综述
1.1 消息系统消息系统是将数据从一个应用传输到另一个应用中,使应用可以专注于数据内容,不必关心传输问题。常见消息系统有点对点消息系统、发布-订阅消息系统。点对点模式(一对一,消费者主动拉取数据,消息收到后清除消息),点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息只能被一个接收者处理,即使有多个消息监听者也是如此。发布/订阅模式(一对多,数据生产后,推送给所有订阅者)发布订阅模型则是一个基于推送的消息传送模
2022-05-27 17:17:51
173
原创 search template
定义search template使用_scripts将模板存储在集群状态中。在 search template中使用的语言叫做 mustache。POST _scripts/my_search_template{ "script": { "lang": "mustache", "source": { "query": { "match": { "{{my_field}}": "{{my_value}}" }
2021-07-20 14:37:10
365
原创 java low level rest client
基于http的客户端rest client,官网给出的restclient有java low level rest client和java hight level rest client,前者兼容所有版本的es,后者是基于前者开发的,只暴露了部分api添加依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-clie
2021-07-20 14:33:00
811
原创 index alias
index alias建立indexPUT twitter/_doc/1{ "user" : "双榆树-张三", "message" : "今儿天气不错啊,出去转转去", "uid" : 2, "age" : 20, "city" : "北京", "province" : "北京", "country" : "中国", "address" : "中国北京市海淀区", "location" : { "lat" : "39.970718", "lon"
2021-07-20 14:31:43
373
原创 Elasticsearch Java-RestHighLevelClient案例
Maven配置<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.8.1</version></dependency><dependency> <gr
2021-07-20 14:30:20
301
原创 alias数据类型
alias数据类型在使用alias时,字段别名的目标有一些限制:它必须是一个具体的字段(不是一个对象或者是另外一个alias)它必须在alias被创建时已经存在如果是一个nested的对象,那么alias必须具有和它的目标具有同样的nested scope案例1PUT trips{ "mappings": { "properties": { "distance": { "type": "long" }, "route_leng
2021-07-20 14:28:14
518
原创 (过时)TransportClient方式连接ES
依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</artifactId> <version>7.6.2</version></dependency>获取Clientimport org.elasticsearch.client.transport.TransportC
2021-07-20 14:27:05
1383
转载 Dynamic mapping
简介自动检测和添加新字段称为动态映射。 动态映射规则可以根据你的目的进行定制动态字段映射:管理动态 field 检测的规则动态模板:用于配置动态添加字段的映射的自定义规则动态模板适用场景在映射定义时未知的动态字段名称的文档nested 的 key/value 对语法"dynamic_templates": [ { "my_template_name": { (1) ... match conditions ... (2)
2021-07-20 14:22:44
192
原创 IDEA常用快捷键
ctrl快捷键Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl + C 复制光标所在行 或 复制选择内容Ctrl + D 复制光标所在行 或 复制选择内容,并把复制内容插入光标位置下面 (必备)Ctrl + W 递进式选择代码块。可选中光标所在的
2021-07-20 11:22:07
188
原创 index template
index template作用Index template 在创建新 index 时可以自动应用的 settings 和 mappings。 Elasticsearch 根据与 index 名称匹配的 index 模式将模板应用于新索引。Index template 仅在 index 创建期间应用。 对 index template 的更改不会影响现有索引。 create index API 请求中指定的设置和映射会覆盖索引模板中指定的任何设置或映射。定义一个templatePUT /_temp
2021-07-14 16:16:44
840
转载 理解mapping中的store属性
store属性作用默认情况下,对字段值进行索引以使其可搜索,但不存储它们 (store)。 这意味着可以查询该字段,但是无法检索原始字段值。如果一个字段的 mapping 中含有 store 属性为 true,那么有一个单独的存储空间为这个字段做存储,而且这个存储是独立于 _source 的存储的。它具有更快的查询。存储该字段会占用磁盘空间。如果需要从文档中提取(即在脚本中使用和聚合),它会帮助减少计算。在聚合时,具有store属性的字段会比不具有这个属性的字段快。 此选项的可能值为 false 和 t
2021-07-14 11:06:30
294
原创 Elasticsearch:inverted index,doc_values 及 source
inverted index如果不想为字段建立inverted index,可以通过mapping对user进行如下设置"user": { "type": "object", "enabled": false}这个字段将不被建立索引,同时也不会建立 doc values。这个字段将不能被用于搜索和做聚合。如果使用这个字段进行搜索的话,不会产生任何的结果。如果对这个文档进行查询,会查询到信息GET twitter/_doc/1显然 user 的信息是存放于 source 里的,只
2021-07-14 10:37:26
333
原创 Cloudera Manager 5.14.X 安装部署(中)
安装Server和Agent方式一(path A installer-采用嵌入式PostgreSQL数据库)前置条件:(CM集群每个节点都要实现) 1)修改系统文件句柄数; 2)修改swap交换区空间; 3)禁用hugepage透明大页; 4)关闭防火墙和selinux; 5)修改主机名和映射文件; 6)实现免秘钥登录; 7)搭建共享源; 8)配置好ntp时间同步服务; 9)安装JDK;1. 安装CM Agent
2020-09-04 16:50:36
544
原创 Cloudera Manager 5.14.X 安装部署(上)
1. 安装部署CM注意事项服务器的IP地址为静态IP;系统根目录至少50G;主机名建议统一小写;python版本为2.7.X;使用root用户安装,或者具有sudo权限的其他用户。所需软件列表软件名称版本CentOS7.4或7.5Cloudera Manager5.15.XCDH5.15.X(与上面版本同步)JDK1.8.XMYSQL数据库5.7.16MYSQL的JDBC驱动5.1.46Python2.7.X注意:
2020-09-04 16:28:29
248
原创 livy安装与部署
livy安装部署有两种方式:直接下载Apache社区编译好的zip包安装部署,或者下载源码进行编译安装;本文采用Apache社区编译好的zip进行安装部署。前提: 已经安装部署好CDH集群,版本为5.14.0将livy安装包解压到/opt/cloudera目录下[root@cdh001 ~]# ls /opt/cloudera/apache-livy-0.7.0-incubating-bin csd parcel-cache parcel-repo parcels创建livy用户、
2020-08-16 16:34:33
3223
原创 CDH5.14.0集群安装Anaconda2
需求: 在CDH5.14.0集群部署Anaconda2下载Anaconda2的parcel包https://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcelhttps://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcel.shahttps://repo.continuum.io/pkgs/misc/parcels/ar
2020-07-30 11:15:03
312
原创 CDH集群部署Spark2.1.0
需求: 在CDH5.14.0集群上部署Spark2.1.0下载parcel包http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.818552-el7.parcelhttp://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.81
2020-07-30 11:03:58
453
利用Python分析与挖掘数据
2017-12-22
机器学习系统设计
2017-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人