自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学无止境,永不停歇

学无止境,永不停歇

  • 博客(37)
  • 收藏
  • 关注

原创 Hadoop3.3.0集群安装

Hadoop3.3.0集群安装1.集群规划2.关闭防火墙3.设置静态IP,修改主机名,以及创建集群账号4.关机,快照,克隆5.编写一个分发脚本6.配置免密登陆7.安装Java和Hadoop8.安装hadoop集群9.通过网页访问hdfs集群的状态10.通过网页访问YARN集群的状态寄语环境:JDK1.8Centos 7.8Hadoop 3.3.01.集群规划在VMWare中构建3台运行Centos的机器作为服务器,一共3个node,一个node为namenode(master主机) ,另外两个no

2020-08-04 20:46:24 7479 1

原创 【VMware16 安装 Centos7 并配置固定IP】

VMware 16 Pro 全网最详细安装 Centos 7 教程

2022-09-13 16:12:28 1556 1

原创 关于“/dev/mapper/centos-root 100%”爆满问题

关于“/dev/mapper/centos-root 100%”爆满问题1.查看磁盘存储情况df -h2.回到根目录下,查看具体情况,最好用root用户cd /du -h -x --max-depth=13.然后一级一级目录定位,最后发现是hdfs文件突然增大,再使用以下命令可以定位到具体的hdfs文件hadoop fs -du -s -h /user/hive/warehouse/ods.db注:/user/hive/warehouse/ods.db 表示文件或文件夹路径每一次

2022-03-12 20:45:23 3763

原创 Windows下配置hadoop环境

hadoop下载地址:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz本来想自己写一遍,一看时间,要下班了,算了,直接贴上大佬的博客吧:https://www.jianshu.com/p/7fd1fe1e771f

2021-03-05 18:13:05 332

原创 关于从MongoDB读取数据到MaxCompute的实践

关于从MongoDB读取数据到MaxCompute的实践主要步骤请参考以下几篇阿里云的操作手册,这里主要突出一些容易翻车的地方。操作文档1.1. JSON数据从MangoDB迁移至MaxComputehttps://help.aliyun.com/document_detail/98009.html1.2. MongoDB Readerhttps://help.aliyun.com/knowledge_detail/137723.html?spm=a1z3jh.13523495.0.0.2

2021-03-03 16:02:33 440 1

原创 阿里云MaxCompute自定义UDAF函数

环境:阿里云MaxCompute阿里云MaxCompute的UDAF函数和hive的UDAF函数还是有所差别的。需求:将拼接好的字段再次拼接,并将拼接好的结果去重,比如:北京,上海,天津;江西,湖北,湖南,北京;这两个字符串重新拼接后的结果应该为:北京,上海,天津,江西,湖北,湖南这里我是用到了阿里云的MaxCompute Studio插件,关于该插件的下载和使用以及函数的发布大家可以参考官网https://helpcdn.aliyun.com/document_detail/27811.html?s

2021-03-03 15:24:59 1494 4

原创 利用aotussh实现ssh通道的稳定连接

需求:需要将通过ssh通过连接至内网的Oracle数据库,实现:使用中转主机和ssh正向代理实现内网数据库的访问。本地服务器->中转主机->远程数据库所在的主机网上找到了已经有好多优秀的小伙伴写的博客,这里就直接引用了(狗头保命)参考文档:了解SSH代理1、SSH正向代理和反向代理配置SSH隧道2、SSH隧道配置至于使用AotuSSH是因为ssh连接不稳定,经常会断开,导致连接失败,所以利用autossh做一个自动监控作用3、配置AutoSSH进行端口转发...

2021-02-23 17:34:21 377

原创 ElasticSearch返回指定字段

环境:阿里云ElasticSearch6.7需求:返回查询结果的指定字段,并不需要所有字段在_source字段中直接指定需要返回的字段GET /ads_lading_trade_brief_es_v2/_search{ "_source": [ "trade_id", "country", "importer_clean_name" ]}也可以在_source字段中执行需要保留的字段和需要过滤的字段,如下所示,其中includes代表需要返回的字段,exc

2021-02-05 09:48:35 5036

原创 ElasticSearch通过字段值的长度过滤

环境: 阿里云ElasticSearch6.7.0需求: 通过字段值的长度对数据进行搜索GET /ads_lading_trade_detail_es_v2_20201203/_search{ "query": { "bool": { "must": [ { "term": { "country": { "value": "PH" } }

2021-01-11 19:54:09 3006 2

原创 ElasticSearch新增字段

环境: 阿里云ElasticSearch 6.7需求: 给指定索引增加字段创建一个索引PUT /indexName{ "settings": { "number_of_shards": 2, "number_of_replicas": 1 }, "mappings": { "_doc": { "properties": { "id": { "type": "long" }, "na

2020-12-22 17:18:19 3367

原创 ElasticSearch索引复制Reindex

环境: 阿里云ElasticSearch6.7情景: ElasticSearch的索引mapping由于不满足生产需求,需要重建mapping例如:将字段dt 的数据类型由 keyword 改成 long 类型实现方法:原索引mappingPUT /ads_lading_trade_detail_es?pretty{ "settings": { "index": { "number_of_shards": "6", "blocks": {

2020-12-17 14:02:32 851 2

原创 ElasticSearch利用updateByQuery同时修改多个字段

环境; 阿里云ElasticSearch6.7.0需求: 利用updateByQuery同时修改一条记录的多个字段POST /ads_lading_trade_brief_es/_update_by_query?conflicts=proceed&wait_for_completion=false{ "script": { "source": "ctx._source.exporter_province='浙江省';ctx._source.exporter_city='绍兴市'",

2020-12-10 10:08:50 5752

转载 解决 413 Request Entity Too Large

今天测试环境图片上传出现:Status Code:413 Request Entity Too Large这是由于客服端可服务端之间采用了nginx做反向代理,当请求长度超过客户端(client_max_body_size )最大请求,就会出现413 entity too large的错误。所以我们需要设置nginx的客户端最大请求大小:client_max_body_size 10m;可适用于 http server location不同的级别但是当我们设置的 client_max_body_s

2020-11-22 21:46:40 16186 1

原创 ElasticSearch6.7使用_delete_by_query产生版本冲突(version conflict)问题

环境:ElasticSearch6.7问题产生的原因:对某个index的数据进行删除,删除的数据量在千万级别。删除过程中产生版本冲突。删除脚本如下:POST /ads_lading_trade_brief_es_02/_delete_by_query{ "query": { "bool": { "must": [ { "match": { "country": "CR" } },

2020-11-06 16:32:14 7220 5

转载 Guava LoadingCache详解及工具类

Guava LoadingCache详解及工具类2020-04-16guavaloadloading一、Guava介绍Guava是Google guava中的一个内存缓存模块,用于将数据缓存到JVM内存中。实际项目开发中经常将一些公共或者常用的数据缓存起来方便快速访问。Guava Cache是单个应用运行时的本地缓存。它不把数据存放到文件或外部服务器。如果不符合需求,可以选择Memcached、Redis等工具。缓存,在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说,cache 就是

2020-11-04 14:26:26 1794 1

原创 idea类导入成功之后还是报红

原因:今天发现idea中某个类突然报红了,但是该类的方法却可以正常调用。解决方法:点击 idae 的 File > Invalideate Caches / Restart 清除缓存并重启接下来等待 idea 重启完成就发现红名的类可以识别了...

2020-11-02 15:15:02 3070 1

转载 idea中git远程版本回退

工作中遇到git远程仓库需要回退到历史版本的问题,根据网上的搜索结果结合自己的实践,整理了如下步骤:在“Show History”中找到当前版本(取名:newVersion)和想要回退到的版本(oldVersion)ShowHistory选择newVersion和oldVersion点击“Copy Revision Number”复制两个版本的版本号:newVersion:2746f428a3d3d000bd1b0e886ef8167e1f73ec9coldVersion :6bc5691

2020-11-02 15:07:25 275

原创 ElasticSearch 出现 cluster_block_exception read_only_allow_delete问题

问题出现的原因对一个索引做别名的增加,结果报错,如下所示:{"type"=>"cluster_block_exception", "reason"=>"blocked by: [FORBIDDEN/12/index read-only / allow delete (api)这里额外附上别名删除和增加的代码:// 别名可以删除PUT /ads_lading_trade_brief_es_02/_settings{"index.blocks.read_only_allow_delet

2020-10-30 10:45:01 1491

原创 ElasticSearch对Date类型的字段进行时间间隔的聚合

环境:ElasticSearch6.7需求:在ElasticSearch中,我想对指定条件过滤之后的数据再通过按月份进行聚合。我们聚合的字段的Date类型。ElasticSearch的代码实现如下:GET /ads_lading_trade_brief_es/_search{ "size": 0, "query": { "bool": { "must": [ { "match": { "country": "US

2020-10-23 14:03:47 1368

原创 ElassticSearch对字段截取后再聚合

环境:ElasticSearch6.7需求:利用ElasticSearch某个字段值的前几位进行聚合Restful查询语句:GET /ads_lading_trade_brief_es/_search{ "size": 0, "query": { "bool": { "must": [ { "match": { "country": "US" } } ] }

2020-10-23 12:41:26 2276 3

原创 ElasticSearch使用Restful的两种聚合方式

环境:ElasticSearch6.7需求:对多个字段进行聚合,并在聚合后对某个字段在进行求和,类似于SQL中的:select sum(求和字段) from table where ... group by 字段1,字段2,字段3;ElasticSearch的Restful API实现(方式一):GET /ads_united_standard_analysis_im_exporter/_search{ "query": { }, "size": 0, "aggs": {

2020-10-23 10:58:41 225

原创 ElasticSearch实现类SQL的sum,count,group by,having功能

环境:ElasticSearch6.7需求:公司数据原先存于阿里云的AnalyticDB for MySQL(以下简称ADBADB),它是一个OLAP分析性数据库,功能强大,支持全文索引和多值列查询,以前是用代码(在IDE工具用.yml文件写SQL语句)基于ADB开发接口进行实时查询数据,但ADB在搜索方面和分词方面相对ADB而言目前来说性能还是有所不足,因此准备将所有基于ADB的SQL语句接口迁移至ElasticSaerch。在ADB中的代码开发如下所示: select reporter,

2020-10-22 17:57:13 2771

原创 ElasticSearch Index插入数据报错“error“:{“type“:“cluster_block_exception“,“reason“:“blocked by: [FORBIDDEN/

问题描述:自己利用Dataworks(阿里云的一个可视化工作平台,其实底层就是利用DataX将数据传输,其实什么工具并不重要的)将数据写入ElasticSearch的Index,刚开始数据导入显示正常,但是在ElasticSearch 中查询不到数据,到最后Dataworks还报错,这里报错就不截图了。就是卡在图一这个页面,然后报错,报错信息如下:报错信息:“error”:{“type”:“cluster_block_exception”,“reason”:“blocked by: [FORBID

2020-10-12 19:56:36 2478

原创 阿里云AnalyticDB MySQL显示指定某个列创建索引

需求:在AnalyticDB MySQL创建一个表,后期只会通过它的主键对数据进行索引,并不会通过其他字段进行索引,AnalyticDB MySQ默认会为索引字段建立索引,这样只建立一个索引的目的是为了节省内存。建表语句如下:注意:一定要显示指定 INDEX_ALL = ‘N’,否则还是对所有字段建立索引。CREATE TABLE ads_lading_detail_supp_bak(TRADE_ID VARCHAR COMMENT 'trade_id,唯一ID',CIF_

2020-10-12 11:13:48 714

原创 ElasticSearch的search.max_buckets值1000限制问题

环境:ElasticSearch6.7问题描述:{ "error": { "root_cause": [], "type": "search_phase_execution_exception", "reason": "", "phase": "fetch", "grouped": true, "failed_shards": [], "caused_by": { "type": "too_many_buckets_exception", "reason": "Trying to create too

2020-10-10 17:16:44 12818 13

原创 全网最全正则匹配

前言:最近工作中用到了正则匹配,参考了以下两个网站,自己结合做了以下总结。脚本之家:脚本之家菜鸟教程:菜鸟教程正则匹配1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文,英文字母和数字及下划线:^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}5、(?!_)  不能以_开头(?!.*?_$)  不能以_结尾[a-zA-Z0-9_\u4e00-

2020-08-10 19:25:31 17688

原创 求多个字段的最大值或者最小值

求多个字段的最大值或者最小值最大值最小值最大值SELECT GREATEST(字段1,字段2,字段3); -- 例如: SELECT GREATEST(null,9,-2);最小值SELECT GREATEST(字段1,字段2,字段3);SELECT LEAST(-6,5,11);注意:GREATEST() 支持字段为null,但null值不参与比较;LEAST() 支持字段为null,但null值参与比较,有null参与时,结果为null。...

2020-07-06 15:20:01 1687

原创 关于从MongoDB读取数据到MaxCompute的一些注意点

从MongoDB读取数据到MaxCompute的实践主要步骤请参考以下几篇阿里云的操作手册,这里主要突出一些容易翻车的地方。1. 操作文档1.1. JSON数据从MangoDB迁移至MaxCompute添加链接描述1.2. MongoDB Reader添加链接描述1.3. MaxCompute Writer添加链接描述2. 翻车点本文MongoDB的json字符串用例为:{“store”:{“book”:[{“category”:“reference”,“author”:“N

2020-06-10 09:54:18 607

原创 cloudera-scm-server dead but pid file exists

原因:CDH没有正常关闭,直接管的集群,再次启动时报错。[root@hadoop102 commands]# /opt/module/cm/cm-5.16.2/etc/init.d/cloudera-scm-server statuscloudera-scm-server dead but pid file exists解决方法:删除pid文件,重新启动。pid 所在路径为:[root@hadoop102 proc]# cd /opt/module/cm/cm-5.16.2/run/[root

2020-05-11 23:46:44 779

原创 idea(2020.1)里面scala灰色字体显示数据类型

2020-05-11 14:51:28 1186

原创 Impala 调优

前几天在用impala on CDH5.16.2查询数据的时候,突然遇到OOM(内存溢出)的问题,如下所示:经查阅资料发现,Impala的内存主要是由两个参数控制的。mem_limit: 256MImpala Daemon JVM Heap: 50MImpala Daemon进程其实是由两个不同的进程组成的。一个进程是用C++写的,它主要用来执行查询语句;另外一个进程是用Java写的,它主要是用来编译执行语句和存储metadata信息。Java的进程被嵌入到C++的进程中,因此他们两个进程共

2020-05-09 11:27:23 1433 1

原创 CDH 5.16.2 异常踩坑

20/05/05 23:52:24 WARN CorruptStatistics: Ignoring statistics because created_by could not be parsed (see PARQUET-251): parquet-mrorg.apache.parquet.VersionParser$VersionParseException: Could not par...

2020-05-07 09:37:25 1577

原创 java.lang.UnsatisfiedLinkError: D:\Software\Java\jdk1.8.0_141\bin\tcnative-1.dll: Can't load IA 32-b

2020-04-26 10:36:16,510 [restartedMain] WARN o.a.c.core.AprLifecycleListener [DirectJDKLog.java : 175] - The APR based Apache Tomcat Native library failed to load. The error reported was [D:\Software...

2020-04-26 11:09:04 1509

原创 IDEA出现 java.lang.NoSuchMethodError 错误的原因及解决方法

出现 java.lang.NoSuchMethodError 错误的原因及解决方法问题分析:出现这种情况,一般是存在jar冲突,简单的说就是导入了两个相同名称的jar,系统不知道用哪个。解决思路:1、找到发生冲突的jar,然后定位发生冲突的jar在maven仓库中的位置,使用如下方法对其进行排除。 <exclusions> ...

2020-04-19 23:27:57 20348 2

原创 在MySql中创建自定义函数或者运行创建函数的sql文件报错

在MySql中创建自定义函数或者运行创建函数的sql文件,报错信息如下:This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you might want to use the less safe log_bin_tr...

2020-02-27 22:48:02 1543

原创 关于hadoop集群中hive表中中文字符乱码问题

关于hadoop集群中hive表中中文字符乱码问题hive表中中文乱码问题是我们一般是我们没有设置元数据编码格式,我们知道hive的元数据是存储在mysql的metastore数据库中,表内容存储在hdfs上,所以只要修改mysql的字符集编码为utf-8即可。操作如下:启动mtsql查看当前编码格式:①修改数据库metastore中对应表的字段内容。[atguigu@hadoop102...

2020-02-06 20:02:59 594

原创 kafka启动之后,一段时间后自动关闭

kafka启动之后,一段时间后自动关闭kafka启动之后,一段时间后自动停止,出现这种情况一般是没有使用守护进程 -daemon 启动kafka。[cluster@hadoop102 kafka_2.11-0.11.0.2]$ bin/kafka-server-start.sh -daemon config/server.properties 原因请参考/opt/module/kafka_...

2020-02-03 20:31:41 8937

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除