渊云-优快云博客

原创 Hadoop3.3.0集群安装

Hadoop3.3.0集群安装1.集群规划2.关闭防火墙3.设置静态IP，修改主机名，以及创建集群账号4.关机，快照，克隆5.编写一个分发脚本6.配置免密登陆7.安装Java和Hadoop8.安装hadoop集群9.通过网页访问hdfs集群的状态10.通过网页访问YARN集群的状态寄语环境：JDK1.8Centos 7.8Hadoop 3.3.01.集群规划在VMWare中构建3台运行Centos的机器作为服务器，一共3个node，一个node为namenode（master主机），另外两个no

2020-08-04 20:46:24 7479 1

原创【VMware16 安装 Centos7 并配置固定IP】

VMware 16 Pro 全网最详细安装 Centos 7 教程

2022-09-13 16:12:28 1556 1

原创关于“/dev/mapper/centos-root 100%”爆满问题

关于“/dev/mapper/centos-root 100%”爆满问题1.查看磁盘存储情况df -h2.回到根目录下，查看具体情况，最好用root用户cd /du -h -x --max-depth=13.然后一级一级目录定位，最后发现是hdfs文件突然增大，再使用以下命令可以定位到具体的hdfs文件hadoop fs -du -s -h /user/hive/warehouse/ods.db注：/user/hive/warehouse/ods.db 表示文件或文件夹路径每一次

2022-03-12 20:45:23 3763

原创 Windows下配置hadoop环境

hadoop下载地址：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz本来想自己写一遍，一看时间，要下班了，算了，直接贴上大佬的博客吧：https://www.jianshu.com/p/7fd1fe1e771f

2021-03-05 18:13:05 332

原创关于从MongoDB读取数据到MaxCompute的实践

关于从MongoDB读取数据到MaxCompute的实践主要步骤请参考以下几篇阿里云的操作手册，这里主要突出一些容易翻车的地方。操作文档1.1. JSON数据从MangoDB迁移至MaxComputehttps://help.aliyun.com/document_detail/98009.html1.2. MongoDB Readerhttps://help.aliyun.com/knowledge_detail/137723.html?spm=a1z3jh.13523495.0.0.2

2021-03-03 16:02:33 440 1

原创阿里云MaxCompute自定义UDAF函数

环境：阿里云MaxCompute阿里云MaxCompute的UDAF函数和hive的UDAF函数还是有所差别的。需求：将拼接好的字段再次拼接，并将拼接好的结果去重，比如：北京，上海，天津；江西，湖北，湖南，北京；这两个字符串重新拼接后的结果应该为：北京，上海，天津，江西，湖北，湖南这里我是用到了阿里云的MaxCompute Studio插件，关于该插件的下载和使用以及函数的发布大家可以参考官网https://helpcdn.aliyun.com/document_detail/27811.html?s

2021-03-03 15:24:59 1494 4

原创利用aotussh实现ssh通道的稳定连接

需求：需要将通过ssh通过连接至内网的Oracle数据库，实现：使用中转主机和ssh正向代理实现内网数据库的访问。本地服务器->中转主机->远程数据库所在的主机网上找到了已经有好多优秀的小伙伴写的博客，这里就直接引用了（狗头保命）参考文档：了解SSH代理1、SSH正向代理和反向代理配置SSH隧道2、SSH隧道配置至于使用AotuSSH是因为ssh连接不稳定，经常会断开，导致连接失败，所以利用autossh做一个自动监控作用3、配置AutoSSH进行端口转发...

2021-02-23 17:34:21 377

原创 ElasticSearch返回指定字段

环境：阿里云ElasticSearch6.7需求：返回查询结果的指定字段，并不需要所有字段在_source字段中直接指定需要返回的字段GET /ads_lading_trade_brief_es_v2/_search{ "_source": [ "trade_id", "country", "importer_clean_name" ]}也可以在_source字段中执行需要保留的字段和需要过滤的字段，如下所示，其中includes代表需要返回的字段，exc

2021-02-05 09:48:35 5036

原创 ElasticSearch通过字段值的长度过滤

环境：阿里云ElasticSearch6.7.0需求：通过字段值的长度对数据进行搜索GET /ads_lading_trade_detail_es_v2_20201203/_search{ "query": { "bool": { "must": [ { "term": { "country": { "value": "PH" } }

2021-01-11 19:54:09 3006 2

原创 ElasticSearch新增字段

环境：阿里云ElasticSearch 6.7需求：给指定索引增加字段创建一个索引PUT /indexName{ "settings": { "number_of_shards": 2, "number_of_replicas": 1 }, "mappings": { "_doc": { "properties": { "id": { "type": "long" }, "na

2020-12-22 17:18:19 3367

原创 ElasticSearch索引复制Reindex

环境：阿里云ElasticSearch6.7情景： ElasticSearch的索引mapping由于不满足生产需求，需要重建mapping例如：将字段dt 的数据类型由 keyword 改成 long 类型实现方法：原索引mappingPUT /ads_lading_trade_detail_es?pretty{ "settings": { "index": { "number_of_shards": "6", "blocks": {

2020-12-17 14:02:32 851 2

原创 ElasticSearch利用updateByQuery同时修改多个字段

环境; 阿里云ElasticSearch6.7.0需求: 利用updateByQuery同时修改一条记录的多个字段POST /ads_lading_trade_brief_es/_update_by_query?conflicts=proceed&wait_for_completion=false{ "script": { "source": "ctx._source.exporter_province='浙江省';ctx._source.exporter_city='绍兴市'",

2020-12-10 10:08:50 5752

转载解决 413 Request Entity Too Large

今天测试环境图片上传出现：Status Code:413 Request Entity Too Large这是由于客服端可服务端之间采用了nginx做反向代理，当请求长度超过客户端(client_max_body_size )最大请求，就会出现413 entity too large的错误。所以我们需要设置nginx的客户端最大请求大小：client_max_body_size 10m;可适用于 http server location不同的级别但是当我们设置的 client_max_body_s

2020-11-22 21:46:40 16186 1

原创 ElasticSearch6.7使用_delete_by_query产生版本冲突（version conflict）问题

环境：ElasticSearch6.7问题产生的原因：对某个index的数据进行删除，删除的数据量在千万级别。删除过程中产生版本冲突。删除脚本如下：POST /ads_lading_trade_brief_es_02/_delete_by_query{ "query": { "bool": { "must": [ { "match": { "country": "CR" } },

2020-11-06 16:32:14 7220 5

转载 Guava LoadingCache详解及工具类

Guava LoadingCache详解及工具类2020-04-16guavaloadloading一、Guava介绍Guava是Google guava中的一个内存缓存模块，用于将数据缓存到JVM内存中。实际项目开发中经常将一些公共或者常用的数据缓存起来方便快速访问。Guava Cache是单个应用运行时的本地缓存。它不把数据存放到文件或外部服务器。如果不符合需求，可以选择Memcached、Redis等工具。缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是

2020-11-04 14:26:26 1794 1

原创 idea类导入成功之后还是报红

原因：今天发现idea中某个类突然报红了，但是该类的方法却可以正常调用。解决方法：点击 idae 的 File > Invalideate Caches / Restart 清除缓存并重启接下来等待 idea 重启完成就发现红名的类可以识别了...

2020-11-02 15:15:02 3070 1

转载 idea中git远程版本回退

工作中遇到git远程仓库需要回退到历史版本的问题，根据网上的搜索结果结合自己的实践，整理了如下步骤：在“Show History”中找到当前版本（取名：newVersion）和想要回退到的版本（oldVersion）ShowHistory选择newVersion和oldVersion点击“Copy Revision Number”复制两个版本的版本号：newVersion：2746f428a3d3d000bd1b0e886ef8167e1f73ec9coldVersion ：6bc5691

2020-11-02 15:07:25 275

原创 ElasticSearch 出现 cluster_block_exception read_only_allow_delete问题

问题出现的原因对一个索引做别名的增加，结果报错，如下所示：{"type"=>"cluster_block_exception", "reason"=>"blocked by: [FORBIDDEN/12/index read-only / allow delete (api)这里额外附上别名删除和增加的代码：// 别名可以删除PUT /ads_lading_trade_brief_es_02/_settings{"index.blocks.read_only_allow_delet

2020-10-30 10:45:01 1491

原创 ElasticSearch对Date类型的字段进行时间间隔的聚合

环境：ElasticSearch6.7需求：在ElasticSearch中，我想对指定条件过滤之后的数据再通过按月份进行聚合。我们聚合的字段的Date类型。ElasticSearch的代码实现如下：GET /ads_lading_trade_brief_es/_search{ "size": 0, "query": { "bool": { "must": [ { "match": { "country": "US

2020-10-23 14:03:47 1368

原创 ElassticSearch对字段截取后再聚合

环境：ElasticSearch6.7需求：利用ElasticSearch某个字段值的前几位进行聚合Restful查询语句：GET /ads_lading_trade_brief_es/_search{ "size": 0, "query": { "bool": { "must": [ { "match": { "country": "US" } } ] }

2020-10-23 12:41:26 2276 3

原创 ElasticSearch使用Restful的两种聚合方式

环境：ElasticSearch6.7需求：对多个字段进行聚合，并在聚合后对某个字段在进行求和，类似于SQL中的：select sum(求和字段) from table where ... group by 字段1，字段2，字段3；ElasticSearch的Restful API实现（方式一）：GET /ads_united_standard_analysis_im_exporter/_search{ "query": { }, "size": 0, "aggs": {

2020-10-23 10:58:41 225

原创 ElasticSearch实现类SQL的sum,count,group by,having功能

环境：ElasticSearch6.7需求：公司数据原先存于阿里云的AnalyticDB for MySQL（以下简称ADBADB），它是一个OLAP分析性数据库，功能强大，支持全文索引和多值列查询，以前是用代码（在IDE工具用.yml文件写SQL语句）基于ADB开发接口进行实时查询数据，但ADB在搜索方面和分词方面相对ADB而言目前来说性能还是有所不足，因此准备将所有基于ADB的SQL语句接口迁移至ElasticSaerch。在ADB中的代码开发如下所示： select reporter,

2020-10-22 17:57:13 2771

原创 ElasticSearch Index插入数据报错“error“:{“type“:“cluster_block_exception“,“reason“:“blocked by: [FORBIDDEN/

问题描述：自己利用Dataworks（阿里云的一个可视化工作平台，其实底层就是利用DataX将数据传输，其实什么工具并不重要的）将数据写入ElasticSearch的Index，刚开始数据导入显示正常，但是在ElasticSearch 中查询不到数据，到最后Dataworks还报错，这里报错就不截图了。就是卡在图一这个页面，然后报错，报错信息如下：报错信息：“error”:{“type”:“cluster_block_exception”,“reason”:“blocked by: [FORBID

2020-10-12 19:56:36 2478

原创阿里云AnalyticDB MySQL显示指定某个列创建索引

需求：在AnalyticDB MySQL创建一个表，后期只会通过它的主键对数据进行索引，并不会通过其他字段进行索引，AnalyticDB MySQ默认会为索引字段建立索引，这样只建立一个索引的目的是为了节省内存。建表语句如下：注意：一定要显示指定 INDEX_ALL = ‘N’，否则还是对所有字段建立索引。CREATE TABLE ads_lading_detail_supp_bak(TRADE_ID VARCHAR COMMENT 'trade_id,唯一ID',CIF_

2020-10-12 11:13:48 714

原创 ElasticSearch的search.max_buckets值1000限制问题

环境：ElasticSearch6.7问题描述：{ "error": { "root_cause": [], "type": "search_phase_execution_exception", "reason": "", "phase": "fetch", "grouped": true, "failed_shards": [], "caused_by": { "type": "too_many_buckets_exception", "reason": "Trying to create too

2020-10-10 17:16:44 12818 13

学无止境，永不停歇

原创 Hadoop3.3.0集群安装

原创【VMware16 安装 Centos7 并配置固定IP】

原创关于“/dev/mapper/centos-root 100%”爆满问题

原创 Windows下配置hadoop环境

原创关于从MongoDB读取数据到MaxCompute的实践

原创阿里云MaxCompute自定义UDAF函数

原创利用aotussh实现ssh通道的稳定连接

原创 ElasticSearch返回指定字段

原创 ElasticSearch通过字段值的长度过滤

原创 ElasticSearch新增字段

原创 ElasticSearch索引复制Reindex

原创 ElasticSearch利用updateByQuery同时修改多个字段

转载解决 413 Request Entity Too Large

原创 ElasticSearch6.7使用_delete_by_query产生版本冲突（version conflict）问题

转载 Guava LoadingCache详解及工具类

原创 idea类导入成功之后还是报红

转载 idea中git远程版本回退

原创 ElasticSearch 出现 cluster_block_exception read_only_allow_delete问题

原创 ElasticSearch对Date类型的字段进行时间间隔的聚合

原创 ElassticSearch对字段截取后再聚合

原创 ElasticSearch使用Restful的两种聚合方式

原创 ElasticSearch实现类SQL的sum,count,group by,having功能

原创 ElasticSearch Index插入数据报错“error“:{“type“:“cluster_block_exception“,“reason“:“blocked by: [FORBIDDEN/

原创阿里云AnalyticDB MySQL显示指定某个列创建索引

原创 ElasticSearch的search.max_buckets值1000限制问题

原创全网最全正则匹配

原创求多个字段的最大值或者最小值

原创关于从MongoDB读取数据到MaxCompute的一些注意点

原创 cloudera-scm-server dead but pid file exists

原创 idea(2020.1)里面scala灰色字体显示数据类型

原创 Impala 调优

原创 CDH 5.16.2 异常踩坑

原创 java.lang.UnsatisfiedLinkError: D:\Software\Java\jdk1.8.0_141\bin\tcnative-1.dll: Can't load IA 32-b

原创 IDEA出现 java.lang.NoSuchMethodError 错误的原因及解决方法

原创在MySql中创建自定义函数或者运行创建函数的sql文件报错

原创关于hadoop集群中hive表中中文字符乱码问题

原创 kafka启动之后，一段时间后自动关闭

空空如也

空空如也