留不住斜阳-优快云博客

原创第6章 DataNode

HDFS DataNode工作机制

2022-06-02 17:53:25 650

原创第5章 NameNode和SecondaryNameNode

NameNode和SecondaryNameNode工作机制详解

2022-06-02 10:24:32 1169

原创第8章 KafkaConsumer重置offset

KafkaConsumer重置offset

2022-05-31 21:20:43 2402 1

原创第7章 __consumer_offsets topic

kafka __consumer_offsets topic

2022-05-31 21:05:08 532

原创第6章 Rebalance详解

kafka rebalance详解

2022-05-31 20:49:11 3355

1.1 消息系统消息系统是将数据从一个应用传输到另一个应用中，使应用可以专注于数据内容，不必关心传输问题。常见消息系统有点对点消息系统、发布-订阅消息系统。点对点模式（一对一，消费者主动拉取数据，消息收到后清除消息），点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息只能被一个接收者处理，即使有多个消息监听者也是如此。发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于推送的消息传送模

2022-05-27 17:17:51 202

原创 search template

定义search template使用_scripts将模板存储在集群状态中。在 search template中使用的语言叫做 mustache。POST _scripts/my_search_template{ "script": { "lang": "mustache", "source": { "query": { "match": { "{{my_field}}": "{{my_value}}" }

2021-07-20 14:37:10 407

原创 java low level rest client

基于http的客户端rest client，官网给出的restclient有java low level rest client和java hight level rest client，前者兼容所有版本的es，后者是基于前者开发的，只暴露了部分api添加依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-clie

2021-07-20 14:33:00 873

原创 index alias

index alias建立indexPUT twitter/_doc/1{ "user" : "双榆树-张三", "message" : "今儿天气不错啊，出去转转去", "uid" : 2, "age" : 20, "city" : "北京", "province" : "北京", "country" : "中国", "address" : "中国北京市海淀区", "location" : { "lat" : "39.970718", "lon"

2021-07-20 14:31:43 415

原创 Elasticsearch Java-RestHighLevelClient案例

Maven配置<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.8.1</version></dependency><dependency> <gr

2021-07-20 14:30:20 331

原创 alias数据类型

alias数据类型在使用alias时，字段别名的目标有一些限制：它必须是一个具体的字段（不是一个对象或者是另外一个alias）它必须在alias被创建时已经存在如果是一个nested的对象，那么alias必须具有和它的目标具有同样的nested scope案例1PUT trips{ "mappings": { "properties": { "distance": { "type": "long" }, "route_leng

2021-07-20 14:28:14 551

原创（过时）TransportClient方式连接ES

依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</artifactId> <version>7.6.2</version></dependency>获取Clientimport org.elasticsearch.client.transport.TransportC

2021-07-20 14:27:05 1418

转载 Dynamic mapping

简介自动检测和添加新字段称为动态映射。动态映射规则可以根据你的目的进行定制动态字段映射：管理动态 field 检测的规则动态模板：用于配置动态添加字段的映射的自定义规则动态模板适用场景在映射定义时未知的动态字段名称的文档nested 的 key/value 对语法"dynamic_templates": [ { "my_template_name": { (1) ... match conditions ... (2)

2021-07-20 14:22:44 261

原创 IDEA常用快捷键

ctrl快捷键Ctrl + F 在当前文件进行文本查找（必备）Ctrl + R 在当前文件进行文本替换（必备）Ctrl + Z 撤销（必备）Ctrl + Y 删除光标所在行或删除选中的行（必备）Ctrl + X 剪切光标所在行或剪切选择内容Ctrl + C 复制光标所在行或复制选择内容Ctrl + D 复制光标所在行或复制选择内容，并把复制内容插入光标位置下面（必备）Ctrl + W 递进式选择代码块。可选中光标所在的

2021-07-20 11:22:07 214

原创 index template

index template作用Index template 在创建新 index 时可以自动应用的 settings 和 mappings。 Elasticsearch 根据与 index 名称匹配的 index 模式将模板应用于新索引。Index template 仅在 index 创建期间应用。对 index template 的更改不会影响现有索引。 create index API 请求中指定的设置和映射会覆盖索引模板中指定的任何设置或映射。定义一个templatePUT /_temp

2021-07-14 16:16:44 894

转载理解mapping中的store属性

store属性作用默认情况下，对字段值进行索引以使其可搜索，但不存储它们 (store)。这意味着可以查询该字段，但是无法检索原始字段值。如果一个字段的 mapping 中含有 store 属性为 true，那么有一个单独的存储空间为这个字段做存储，而且这个存储是独立于 _source 的存储的。它具有更快的查询。存储该字段会占用磁盘空间。如果需要从文档中提取（即在脚本中使用和聚合），它会帮助减少计算。在聚合时，具有store属性的字段会比不具有这个属性的字段快。此选项的可能值为 false 和 t

2021-07-14 11:06:30 326

原创 Elasticsearch：inverted index，doc_values 及 source

inverted index如果不想为字段建立inverted index，可以通过mapping对user进行如下设置"user": { "type": "object", "enabled": false}这个字段将不被建立索引，同时也不会建立 doc values。这个字段将不能被用于搜索和做聚合。如果使用这个字段进行搜索的话，不会产生任何的结果。如果对这个文档进行查询，会查询到信息GET twitter/_doc/1显然 user 的信息是存放于 source 里的，只

2021-07-14 10:37:26 376

原创 Cloudera Manager 5.14.X 安装部署（下）

后续操作可登录WEB界面进行操作，由于比较简单，有时间再更新；

2020-09-04 17:14:35 134

原创 Cloudera Manager 5.14.X 安装部署（中）

安装Server和Agent方式一（path A installer-采用嵌入式PostgreSQL数据库）前置条件：（CM集群每个节点都要实现） 1）修改系统文件句柄数； 2）修改swap交换区空间； 3）禁用hugepage透明大页； 4）关闭防火墙和selinux； 5）修改主机名和映射文件； 6）实现免秘钥登录； 7）搭建共享源； 8）配置好ntp时间同步服务； 9）安装JDK；1. 安装CM Agent

2020-09-04 16:50:36 604

原创 Cloudera Manager 5.14.X 安装部署（上）

1. 安装部署CM注意事项服务器的IP地址为静态IP；系统根目录至少50G；主机名建议统一小写；python版本为2.7.X；使用root用户安装，或者具有sudo权限的其他用户。所需软件列表软件名称版本CentOS7.4或7.5Cloudera Manager5.15.XCDH5.15.X（与上面版本同步）JDK1.8.XMYSQL数据库5.7.16MYSQL的JDBC驱动5.1.46Python2.7.X注意：

2020-09-04 16:28:29 283

原创 livy安装与部署

livy安装部署有两种方式：直接下载Apache社区编译好的zip包安装部署，或者下载源码进行编译安装；本文采用Apache社区编译好的zip进行安装部署。前提：已经安装部署好CDH集群，版本为5.14.0将livy安装包解压到/opt/cloudera目录下[root@cdh001 ~]# ls /opt/cloudera/apache-livy-0.7.0-incubating-bin csd parcel-cache parcel-repo parcels创建livy用户、

2020-08-16 16:34:33 3287

原创 CDH5.14.0集群安装Anaconda2

需求：在CDH5.14.0集群部署Anaconda2下载Anaconda2的parcel包https://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcelhttps://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcel.shahttps://repo.continuum.io/pkgs/misc/parcels/ar

2020-07-30 11:15:03 345

原创 CDH集群部署Spark2.1.0

需求：在CDH5.14.0集群上部署Spark2.1.0下载parcel包http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.818552-el7.parcelhttp://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.81

2020-07-30 11:03:58 485

阿里java开发代码规范插件（IDEA+ECLIPSE）

最新版阿里java开发手册规范检测插件，对java代码的规范化具有非常大的帮助。

2018-03-21

数据仓库—维度建模

此书翻译于国外经典全为教材、通俗易懂、知识体系完善、案例丰富、循序渐进、适合初学者适用。

2018-02-02

利用Python分析与挖掘数据

本书主要讲述了怎样利用python进行数据分析，包括利用第三方python库numpy进行高效的线性代数运算，利用pandas对数据进行预处理和进行时间序列处理，以及数据分析的前期处理—数据清洗、转换等，最后讲解了python在处理金融方面数据的应用，本书注重基础知识与实践操作结合，是一本不错的入门书籍。

2017-12-22

信息系统项目管理【2005-2016】教程和试题

信息系统项目管理的考试真题和教程，涵盖了从2005-2016年的所有资料，绝对物超所值。

2018-04-20

Python数据分析基础教程：Numpy学习指南第二版配套源码及数据集

本资源为“Python数据分析基础教程：Numpy学习指南“第二版配套源码及数据集。

2017-11-27

机器学习系统设计

如今，机器学习正在互联网上下掀起热潮，而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言，它支持快速探索和实验，并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色，就是结合实例分析教会读者如何通过机器学习解决实际问题。, 本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。, 举几个例子，我们会介绍怎么把StackOverflow的回答按质量高低进行分类，怎么知道某个音乐文件是爵士风格，还是重金属摇滚风格。另外，本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之，通过学习本书，读者可以掌握构建自己所需系统的各方面知识，并且学以致用，解决自己面临的现实问题。, 读者只要具有一定的Python编程经验，能够自己安装和使用开源库，就足够了，即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

2017-11-26

机器学习实现量化投资

本书为国外非常流行且受欢迎的一本书，讲述了用机器学习方法实现量化投资，并且附有python源代码，值得好好学习一下。

2018-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人