MrGrant-优快云博客

原创 CDH6.3修改主机IP

这里写自定义目录标题修改ip停服务进入mysql修改元数据ip修改各主机的ip（分别修改各主机的ip）修改所有hadoop集群机器中的cloudera-scm-agent的配置文件重启服务修改ip开始是在公司使用桥接模式，回到家使用无线网段变了，遂改掉IP,CDH中还是配置的原来的IP，需要改掉停服务[root@node01 ~]# service cloudera-scm-agent stop[root@node01 ~]# service cloudera-scm-server stop进

2020-06-12 01:08:40 583

原创 hive加载数据权限报错

前提：上传数据至hdfs 的/user/root/下，创建了hive的orc表，准备load数据，创建了临时的ordertmp的textfile格式表，后面用insert overwrite进目标表。执行load data 从/user/root/下加载数据到hive表中，报下面的权限错误。0: jdbc:hive2://node01:10000> load data inpath '/user/root/order/order.txt' into table ordertmp;INFO

2020-06-09 15:38:41 1570

原创检查HDFS块状态

hadoop集群运行过程中，节点的块状态或者上下线节点时集群都会受影响。如何查看当前的hdfs的块的状态hadoop1.x时候的命令，hadoop2.x也可使用：hadoop fsck /在hadoop2.0之后，可以使用新命令：hdfs fsck /[root@node01 ~]# su hdfs -c "hadoop fsck /"WARNING: Use of this s...

2020-04-29 09:29:08 1186

原创 SparkStreaming控制消费速率（反压机制）

反压机制：spark1.5以后，通过动态收集系统的一些数据来自动的适配集群数据处理能力在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时...

2020-04-28 15:03:25 1355

转载 Spark Streaming性能优化: 如何在生成环境下应对流数据峰值巨变

1、为什么引入Backpressure默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次花费时间， batch interval为Streaming应用设置的批处理间隔。这意味着Sp...

2020-04-28 14:15:30 222

原创 SQL中的case when 和 decode

case when 和 decode（oracle独有）两者都可以作为条件判断同一个需求：select id,decode(kurst,'中间价','中','平均汇率','平') KURST from EX_RATE_CONFIG;select id,CASE WHEN kurst = '中间价' then '中' WHEN kurst = '平均汇率' then '平' END AS...

2020-04-28 13:54:05 572

原创 sed和awk的用法

sed和awk用法Sedsed是一个很好的文件处理工具，本身是一个管道命令，主要是以行为单位进行处理，可以将数据行进行替换、删除、新增、选取等特定工作，下面先了解一下sed的用法sed命令行格式为：sed [-nefri] ‘command’ 输入文本常用选项：-n∶使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN的资料一般都会被列出到萤...

2020-04-28 10:31:32 591

原创 UserBehavior用户行为分析

1、数据来源阿里云天池： https://tianchi.aliyun.com/dataset/dataDetail?dataId=649本数据集包含了2017年11月25日至2017年12月3日之间，约有一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。时间跨度约为一个礼拜，从...

2020-04-27 13:55:59 6331

转载 hive时间字段处理详情

hive时间字段处理详情转载自：https://blog.youkuaiyun.com/jsbylibo/article/details/83093292

2020-04-26 11:13:31 762

原创 cm管理hadoop集群hdfs切换用户

使用CDH和CM管理hadoop集群切换用户CDH和CM管理hadoop集群后，创建很多用户hdfs、hive、hue等等，上传文件到hdfs发现登陆不了hdfs用户。[root@node01 localData]# su - hdfsThis account is currently not available.查看hdfs的帐号信息[root@node01 localData]# ...

2020-04-24 11:12:45 4808

原创 CDH6.3配置安装实操

环境要求Redhat7.4安装CDH6.3。CDH6与CDH5的安装步骤一致，主要包括以下四部分：1.安全前置准备，包括安装操作系统、关闭防火墙、同步服务器时钟等；2.外部数据库如MySQL安装3.安装Cloudera Manager；4.安装CDH集群；请务必注意CDH6的安装前置条件包括如下：外部数据库支持： MySQL 5.7或更高 MariaDB 5.5或更高 Postgr...

2020-04-22 16:04:04 2078 6

原创 Centos7安装配置实操

之前由于centos7不太稳定，一直使用centos6.5，现在各服务器生产环境已经正式使用7，所以自己手动实践下。下载去官网或国内镜像站下载centos7镜像：此版本CentOS-7-x86_64-DVD-1908.iso安装选择桥接或NAT模式将复制物理网络状态打上勾官网解释：您可以为现有虚拟机配置桥接模式网络连接。要为新虚拟机配置桥接模式网络连接，请在运行新建虚拟机向导时...

2020-04-08 16:13:06 508

原创 Springboot配置文件放在jar外部

这里Springboot配置文件放在jar外部引言通过命令行指定外置配置文件自定义配置文件或者引言Spring Boot程序默认从application.properties或者application.yaml读取配置，如何将配置信息外置，方便配置呢？查询官网，可以得到下面的几种方案:通过命令行指定SpringApplication会默认将命令行选项参数转换为配置信息例如，启动时命令参...

2020-04-07 09:06:07 269

原创 oracle之with as 使用

项目中一个聚合查询，真正进行查询之前预先构造了一个临时表，之后便可多次使用它做进一步的分析和处理WITH Clause方法的优点增加了SQL的易读性，如果构造了多个子查询，结构会更清晰；更重要的是：“一次分析，多次使用”，这也是为什么会提供性能的地方，达到了“少读”的目标。WITH p_sum AS ( SELECT report_type, 'xx' T, self_ag...

2020-01-15 13:52:31 294

原创 Oracle中日期格式转化之dd-M月-yyyy转为yyyyMMdd

Oracle中日期格式转化之dd-M月-yyyy转为yyyyMMdd问题:解决办法问题:项目中遇到某张表的日期字段来自邮件解析入库，而表的日期字段又建的是nvarchar2类型，遂查询出的日期字段全是dd-M月-yyyy格式，对日期排序等操作非常不友好，需要转换乘yyyyMMdd解决办法后半段借鉴网友出的同样问题，月份数字是动态的，需要case when判断转化。SELECT CAS...

2020-01-15 11:21:23 4713

原创 SQL执行效率注意

**SQL提高查询效率**1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is null 可以在num上设置默认值0，确保表中num列没有null值，然后这样查...

2020-01-07 16:02:53 357

原创 HIVE、Oracle种row_number开窗函数去重、分组排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.youkuaiyun.com/wiborgite/article/details/80521593ROW_NUMBER() OVER函数的基本用法语法：ROW_NUMBER() OVER(PARTITION BY COLUMNORDER BY COLUMN)详解：...

2019-12-11 12:02:41 2657

原创归并排序理解及实现

一、归并排序理解归并排序非常重要，在计算机科学中，归并排序是一种高效、通用、基于比较的排序算法。此外，归并排序还是稳定的，因为相同元素的相对次序在排序后不会发生变化。大概有两个步骤：1、将待排序的线性表不断地切分成若干个子表，直到每个子表只包含一个元素，这时，可以认为只包含一个元素的子表是有序表。2、将子表两两合并，每合并一次，就会产生一个新的且更长的有序表，重复这一步骤，直到最后只剩下一个...

2019-12-11 11:54:44 361

原创 JAVA中静态变量及类加载顺序

1、静态变量、非静态变量的区别①java类的成员变量有俩种：一种是被static关键字修饰的变量，叫类变量或者静态变量另一种没有static修饰，为成员变量通俗点说：类的静态变量在内存中只有一个，java虚拟机在加载类的过程中为静态变量分配内存，静态变量位于方法区，被类的所有实例共享。静态变量可以直接通过类名进行访问，其生命周期取决于类的生命周期。而实例变量取决于类的实例。每创建...

2019-12-02 11:38:19 2745

原创 oracle中根据不同条件修改一个字段值

需求：项目中有个需求，报表中用户的数据中有系统内或系统外，但真实数据有国外分公司填入的是英文，External和Internal，真正汇总分组时会将这个字段分成好几组，有问题，所以在汇总逻辑之前update掉：解决：当然还是用case when ，但一定跟select语句中的case when区别开来。UPDATE DWD_XXX_XXX_XXXXSET SYSTEM_INOUTSIDE ...

2019-11-29 16:28:02 2498

原创快速排序思想及实现

1、快速排序的思想快速排序就是给基准数据找在数组中正确位置的过程，一旦基准位置的正确位置找到，那基准位置左右两边经过同样的步骤递归也可以有序，最终整体数组有序。整体可以理解为三个步骤：1、先从队尾开始向前扫描且当low < high时，如果arr[high] > tmp ,则high – ,如果arr[high] < tmp ,则将high的值赋给low, 即arr[lo...

2019-11-25 21:17:24 1032

原创 JAVA更优雅的处理空值

有时候，更可怕的是系统因为这些空值的情况，会抛出空指针异常，导致业务系统发生问题，如何优雅处理空值。1、业务中的空值场景存在一个UserSearchService用来提供用户查询的功能:public interface UserSearchService{ List<User> listUser(); User get(Integer id);}问题现场对于面...

2019-11-22 09:41:23 264

原创 Kettle使用教程

1、下载并解压：https://community.hitachivantara.com/docs/DOC-1009855windows启动双击Spoon.bat2、点击作业，新建DB连接，测试。若报：org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connec...

2019-11-07 18:44:53 501

原创数据库表里有数据如何修改字段类型

由于oracle等数据库在表里有数据时无法改变字段类型，于是使用下列方法，总体思路是：备份原表数据，删除表数据，修改字段类型，将备份表的数据导入原表，删除备份表，结束。1、备份表数据create table ST_DATA_IMPORT_BAK AS SELECT * FROM ST_DATA_IMPORT;2、删除表数据delete from ST_DATA_IMPORT;3、...

2019-10-25 10:51:39 8651 2

原创三次握手四次挥手

简明理解三次握手和四次挥手三次握手与四次挥手分别对应TCP连接建立过程与断开过程，先上TCP报文格式： ...

2019-10-17 15:50:05 979 1

转载 Impala和Hive的关系

Impala和Hive的关系　　Impala是基于Hive的大数据实时分析查询引擎，直接使用...

2019-10-17 15:29:08 281

原创 ElasticSearch概述

1、ElasticSearch架构概述ES优点：ES应用场景：ES核心概念：ES与RDBMS的比较：文档结构：

2019-10-15 15:53:04 287

原创 Lucene文件检索项目实战

1、需求分析假设有一批文档，格式有DOC、DOCX、PPT、PPTX、TXT、PDF这几种，实现一个类似百度文库的文件检索系统，需求如下。（1）能够对文件名进行检索。（2）能够对文件内容进行检索。（3）能够下载检索到的文件。（4）能够实现关键字的高亮。2、架构设计概括如下，文件存储系统中存放了不同类型的文件，后台通过程序提取出文件名和文件内容，使用Lucene对文件名和文件内容进行...

2019-10-14 17:07:52 1773 4

原创使用Tika进行文档解析抽取

1、文本内容抽取文件搜索的第一要务是抽取文件内容，我们使用Apache Tika。Apache Tika是一个用户文件类型检测和文件内容提取的库，Apache顶级项目，可检索超过1000中类型的文档，广泛应用于搜索引擎、内容分析、文本翻译、数字资产管理等。主要特点如下：（1）统一解析器接口（2）低内存占用（3）快速处理（4）灵活元数据（5）解析器集成（6）MIME类型检测（7）语...

2019-09-25 17:37:17 4974

原创 Lucene提供的几种分词器

1、几种lucene提供的分词器下面是几种分词器的代码实现示例。import org.apache.lucene.analysis.*;import org.apache.lucene.analysis.cjk.CJKAnalyzer;import org.apache.lucene.analysis.core.KeywordAnalyzer;import org.apache.luc...

2019-09-23 17:09:16 1154

原创全文检索几种词向量模型

1、倒排索引模型2、布尔检索类型3、TF-IDF权重计算下面是TF-IDF的JAVA代码实现。public class TFIDF { public double tf(List<String> doc,String term){ double termFrequency = 0; for (String str : doc) {...

2019-09-18 18:47:31 1037

原创 Cento7配置网络及代理

1、配置网络编辑网卡配置文件[root@localhost yum.repos.d]# vim /etc/sysconfig/network-scripts/ifcfg-eno16777736TYPE=EthernetBOOTPROTO=noneDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_...

2019-07-20 12:07:44 643

原创 Flink快速开始

1、Flink官网下载二进制包，解压。[hadoop@master install]$ tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C /app/2、启动一个本地的Flink集群[hadoop@master bin]$ ./start-cluster.sh Starting cluster.Starting standalone...

2019-06-25 10:24:10 626

原创 Crontab示例

分小时日月份取值1、每分钟执行一次command* * * * * command2、每小时的第3和第15分钟执行3,15 * * * * command3、上午8点到11点的第3和第15分钟执行3,15 8-11 * * * command4、每隔两天的上午8点到11点的第3和第15分钟执行3,15 8-11 */2 * * command5、每...

2019-06-19 16:09:09 454

原创 Docker搭建私有仓库

安装服务docker-registrydocker-registry 是官方提供的工具，可以用于构建私有的镜像仓库。[root@node01 install]# docker pull registry:22: Pulling from library/registryc87736221ed0: Pulling fs layer 1cc8e0bb44df: Pulling fs lay...

2019-06-19 16:05:58 569

原创 OpenShift集群完善及创建应用CakePHP

oc进行操作前需要oc login登录，以dev登录[root@node01 install]# oc login -u dev https://node01:8443The server is using a certificate that does not match its hostname: x509: certificate is valid for kubernetes, kub...

2019-06-19 10:58:21 947 1

原创 openshift-origin-server搭建并部署容器应用

准备主机、操作系统、配置操作系统、主机映射等OpenShift平台使用的容器引擎为Docker，安装Docker软件启动服务，并设置为开机自启动[root@node01 ~]# systemctl start docker[root@node01 ~]# systemctl enable dockerCreated symlink from /etc/systemd/system/mul...

2019-06-18 16:28:27 2070

原创 Docker部署nginx

Docker中部署nginx查找docker hub上的nginx镜像[root@node01 ~]# docker search ngigxNAME DESCRIPTION STARS OFFICIAL AUTOMATED[root@node01 ~]# docker pull nginxU...

2019-06-14 15:27:29 1109 1

原创 docker镜像使用及连接

docker镜像使用当运行容器时，使用的镜像如果在本地中不存在，docker 就会自动从 docker 镜像仓库中下载，默认是从 Docker Hub 公共镜像源下载。下面我们来学习：1、管理和使用本地 Docker 主机镜像2、创建镜像列出镜像列表我们可以使用 docker images 来列出本地主机上的镜像。[root@localhost app]# docker images...

2019-06-11 19:10:54 4563

原创 docker安装及使用

docker安装及使用1、环境检测检测系统内核2、安装docker移除旧的版本：安装一些必要的系统工具：添加软件源信息：更新yum缓存：安装docker-ce：启动 Docker 后台服务测试hello-world镜像加速删除 Docker CE3、docker容器使用运行交互式的容器启动容器（后台模式）停止容器Docker 客户端4、运行一个web应用查看 WEB 应用容器网络端口的快捷方式查看...

2019-06-11 16:18:59 667

电影推荐系统的movie数据集

空空如也