x我有辣条跟我走。-优快云博客

原创图示-实现hive的文件与hdfs的导入导出

已知一堆sql导入数据库。导出成文本：

2020-07-13 21:28:00 572

原创配置免密登录报错：ssh: Could not resolve hostname note1: Name or service not known

这两天配置免密出现这个错误：[root@note4 .ssh]# ssh note1ssh: Could not resolve hostname note1: Name or service not known1.设置主机名对不对查看：hostnamectl修改：hostnamectl set-hostname 主机名 --static2.修改[root@note4 .ssh...

2020-03-19 14:22:18 21739

原创 linux中zookeeper的安装与配置

三台虚拟机zookeeper的下载与安装

2020-03-11 19:52:26 922

原创 CDH下配置Flume进行配置传输日志文件

进入节点找到配置文件的位置（CDH启动后就会一直监测日志文件，只要生成日志文件就会进行传输）

2025-03-06 18:23:59 494

原创安装gcc8编译工具和centos7中的yum冲突，恢复原本yum

安装gcc8编译工具和centos7中的yum冲突，恢复原本yum

2025-03-04 21:02:52 596

原创 windows基础命令

学习网络安全前还需要学习一些基础的windows命令：掌握windows系统文件及目录操作命令掌握windows网络相关命令

2023-08-01 21:35:19 1101

原创安装华为模拟器

安装完成后拖动一个2240启动。安装前需要安装虚拟机。

2023-07-31 19:06:49 1004

原创 vmware的window中安装GNS3

点击虚拟机-安装VMwaretools安装在虚拟机上面此图标代表已经成功，将文件复制到虚拟机上里面。

2023-07-30 21:37:30 1016

原创 vmware中windows操作系统虚拟机安装

文件-新建虚拟机典型-下一步稍后安装操作系统-下一步window10 64x -下一步修改虚拟机名称及位置-下一步默认60g,至少大于40g-将虚拟磁盘拆分成多个文件夹-下一步点击完成。

2023-07-28 22:13:16 1043

正则表示IP段：59.48.236.x1.网上查的这个拼接出来有问题，我想要的是前面可以固定的，但是后面的这个匹配的是包含的select ip from aa where ip regexp '^([59]+\\.)+([48]+\\.)+([236]+\\.)+([1-9]\\d)$' ;2.解决固定问题 select ip from aa where ip regexp '^(59\\.48\\.236\\.54)$' ;3.最后成功59.48.236.x..

2021-07-21 22:00:07 1936 1

原创 Hive中的sql

sql中的where、group by 、having的使用解析group by一般用到的就是“每”这个字。例如说明现在有一个这样的表：每个部门有多少人就要用到分组的技术。having是分组（group by）后的筛选条件，分组后的数据组内再筛选where则是在分组前筛选where子句中不能使用聚集函数，而having子句中可以，所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用。即having子句的适用场景是可以使用聚合函数having 子句限制的是组，而不是行.

2021-07-21 21:51:33 514

原创 sqoop将hive数据导入mysql报错

sqoop export \--connect 'jdbc:mysql://192.168.1.135:3306/safe_manager?useUnicode=true&characterEncoding=utf-8' \--username root \--password Free-Wi11 \--table bigscreen_line1 \--input-null-string '\\N' --input-null-non-string '\\N' \--export...

2021-01-29 13:22:19 2190

原创 hive获取近12个月数据

样式一：2020-11 0SELECT DATE_FORMAT(CURRENT_DATE, 'Y-M') AS `month`,count(class_name) from t3 where DATE_FORMAT(updatetime,'Y-M')=DATE_FORMAT(add_months((CURRENT_DATE),0),'Y-M')UNION SELECT DATE_FORMAT(add_months((CURRENT_DATE),-1),'Y-M') AS `...

2021-01-14 14:11:36 3882

原创数据清洗---mapreduce

现在拿到一段web日志：192.168.1.1 a001 [20160113_06:51:35 +0000] www.efeihu.com/book/children/24196262 300 5000 windows "http://food.chocolate/12312314"192.168.1.1 a001 [20160113_06:51:35 +0000] www.efeihu.com/food/chocolate/12312314 300 5000 windows "http://food.

2020-11-26 23:54:38 542

原创可视化--Superset的安装与配置

1.Superset概述：ApacheSuperset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分易用。由于Superset能够对接常用的大数据分析工具，如Hive、Kylin、Druid等，且支持自定义仪表盘，故可作为数仓的可视化工具。2.安装Superset官网地址：http://superset.apache.org/2.安装Superset2.1 安装Python环境Superset是.

2020-11-19 17:21:01 1766

原创 hive中的爆炸函数（ lateral view 与 explode详解）

explode就是将hive一行中复杂的array或者map结构拆分成多行。lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表。explode将复杂结构一行拆成多行，然后再用lateral view做各种聚合。例：select * from t

2020-11-16 20:07:29 14791

原创大数据技术之高频面试题

第一章项目涉及技术1.1Linux&Shell1.1.1 Linux常用高级命令序号命令命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装） .

2020-11-12 20:32:40 24789 2

原创正则表达式最详解

正则表达式是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”）。模式描述在搜索文本时要匹配的一个或多个字符串。1.正则表达式基本语法两个特殊的符号'^'和'$'。他们的作用是分别指出一个字符串的开始和结束。例子如下："^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）；"of despair$"：表示所以以"of despair"结尾的字符串；"^abc$"：表示开始和结尾都是"abc"的字符串——呵呵，只有"abc"自己

2020-11-11 15:35:17 753

原创 hivesql中的函数：（concat，concat_ws，group_concat，str_to_map，LIKE，REGEXP_REPLACE，REGEXP_EXTRACT，RLIKE）

hivesql中的函数：1.concat函数 CONCAT（）函数用于将多个字符串连接成一个字符串。返回结果为连接参数产生的字符串。如有任何一个参数为NULL ，则返回值为 NULL。可以有一个或多个参数。 hive> select concat('a','b'); ab hive> select concat('a','b',null); NULL2.concat_ws函数是CONCAT()的特殊形式。第一个参数是其它参...

2020-11-04 17:34:30 1912

原创大数据面试题

1.11.什么是数据库？2.什么是数据仓库？3.什么是业务？4.什么是面向主题？5.数据一致性怎么理解？6.数据来源？7.日志数据和业务数据都是哪些？8.风控和画像是啥？9.项目技术选型？10.框架版本选型？11.服务器选物理机还是云主机？12.如何确认集群规模？你们公司用几台虚拟机？13.nginx服务器做什么？14.为什么需要kafka?15.埋点的数据怎么被采集的？16.你们公司的日志文件一天有多少？17.你们公司有多少人?有哪些部门

2020-11-03 20:32:55 310 1

原创英语学位英语

再过几天就是学位英语考试了，之前有点轻视了，直到做了套题才发现现在有多菜。只能临阵磨枪了，可不能学我哦。1.考试题题型分值完成对话 10分 /1分阅读理解 40分/2分语法和词汇 20分/1分英译汉 15分写作 15分（100词以上）总分 100分（120分钟） 2.60分及格，以分值的高低及难易程度从上向下排列：阅读理解的40分，作文的15分，完成对话的10分，英译汉15分，语法和词汇20分，按这样的顺序开..

2020-11-03 19:44:41 736

原创项目---累积型快照事实表sql

ods:新增及变化 --》每天分区里面存放的是新增的与变化的数据drop table if exists ods_coupon_use;create external table ods_coupon_use( `id` string COMMENT '编号', `coupon_id` string COMMENT '优惠券ID', `user_id` string COMMENT 'skuid', `order_id` string COMMENT ...

2020-11-03 19:15:13 2431

原创数据仓库的分层

数仓为什么要分层？1.把复杂问题简单化把复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位。2.减少重复开发规范数据分层，通过中间层数据，能够减少极大的重复计算，增加一次结果的重复性3.隔离原始数据不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开。数据仓库分层：ODS层:原始数据层，存放原始数据，直接加载原始日志，数据保持原貌不做处理。DWD层：对ODS层数据进行清洗（去空值，脏数据，超过极限范围的数据），维度退化（小表和成大表），脱敏（手机...

2020-10-29 20:35:38 1330

原创数据仓库的同步策略

目录同步策略四种表20张表分别属于什么分区策略数据的同步主要得益于：数据仓库的同步策略，它的同步策略有四种。同步策略全量同步策略：每日全量，导入完整数据到hive的分区表，就是每天存储一份完整数据，作为一个分区。适用于表数据量不大，且每日都有新数据插入，也会有旧数据修改的场景。例如：编码字典表，且每天即会有数据插入，也会有旧数据的修改的场景。增量同步策略：每日增量，就是每天存储一份增量数据，作为一个分区。适用于数据量大，且每天只会有新数据插入的场景。例如：退单表

2020-10-28 20:06:59 1431

原创 Kafka数据可靠性保证及分区分配策略

1

2020-10-24 08:27:44 417

原创大数据面试题汇总（含数仓）

10月22日1.zookeeper中尽可能多的创建节点好吗？每个节点都会存储东西，如果太多节点就会使它的它的性能不好。2.zookeeper的一个节点上默认存储多少的数据？3.在你接触的项目里面，你的zookeeper在哪些地方使用了？hadoop 的HA，其他的一些HA场景Kafka ，hbase，spark streaming与kafka整合还有一些场景：配置文件管理（例），负载均衡，动态上下线...4.zookeeper是怎样进行监听的？某...

2020-10-23 17:46:51 1130

原创 zookeeper的一致性配置管理

参考：https://blog.youkuaiyun.com/u013468915/article/details/80955110配置：public class CommonConfig implements Serializable{ // 数据库连接配置 private String dbUrl; private String username; private String password; private String driverClass; public Co.

2020-10-23 16:57:44 267

原创 Flume的拦截器原理及其配置

配置：file-flume-kafka.confflume中主要用到的就是配置文件com.bigdata.flume.interceptor.LogETLInterceptor和com.bigdata.flume.interceptor.LogTypeInterceptor是自定义的拦截器的全类名。需要根据用户自定义的拦截器做相应修改。拦截器：它的里面有两个自定义的拦截器，一个是数据清洗的拦截器，一个是日志类型的拦截器。拦截器就相当于map,有kv值。key :就是头，给他个名字叫做.

2020-10-23 11:44:37 997

原创 Zookeeper总结图

2020-10-22 17:39:08 228

原创 java面试题及答案

面向对象编程（OOP）Java 是一个支持并发、基于类和面向对象的计算机编程语言。下面列出了面向对象软件开发的优点：代码开发模块化，更易维护和修改。代码复用。增强代码的可靠性和灵活性。增加代码的可理解性。面向对象编程有很多重要的特性，比如：封装，继承，多态和抽象。下面的章节我们会逐个分析这些特性。封装封装给对象提供了隐藏内部特性和行为的能力。对象提供一些能被其他对象访问的方法来改变它内部的数据。在 Java 当中，有 3 种修饰符：public，private 和 prot.

2020-10-22 17:33:24 2959

原创 Hadoop中hdfs小文件处理

假如有128G的小文件，那么它会有多少字节那？一个小文件：占用namenode多大内存150字节；128 * 1024*1024*1024byte/150字节 = 9亿文件块（1KB（Kilobyte，千字节）=1024B= 2^10 B；1MB（Megabyte，兆字节，百万字节，简称“兆”）=1024KB= 2^20 B；1GB（Gigabyte，吉字节，十亿字2113节，又称“千兆”）=1024MB= 2^30 B。）怎么解决呢？（1）采用har归档方式，将小文件归档我们...

2020-10-20 18:22:35 873

原创线程池

转自：创天创世纪目录线程池的概念：四种常见的线程池详解：缓冲队列BlockingQueue和自定义线程池ThreadPoolExecutor线程池的概念：线程池就是首先创建一些线程，它们的集合称为线程池。使用线程池可以很好地提高性能，线程池在系统启动时即创建大量空闲的线程，程序将一个任务传给线程池，线程池就会启动一条线程来执行这个任务，执行结束以后，该线程并不会死亡，而是再次返回线程池中成为空闲状态，等待执行下一个任务。2. 线程池的工作机制 ...

2020-10-20 17:16:43 133

原创 lockback的使用

转载于：java风云目录logback简介logback配置介绍logback.xml配置详解logback简介logback是由log4j的创始人开发的新日志框架，包括三个模块：logback-core logback-classic logback-accesslogback-core是核心模块，logback-classic是日志框架，相当于log4j，logback很好的实现了slf4j，logback-access提供跟web 容器有关的日志访问功能。logb

2020-10-20 16:47:48 1226

原创大白话--java中同步异步，并行并发，线程安全不安全的区别

同步与异步的区别：举个例子：同步：就相当于起床，要先穿衣服，再穿鞋，再洗漱；是按一定顺序的，你做一件事的时候就不能做另一件事。异步：就相当于你吃饭和看电视这两件事情是可以一起进行的，能够节约时间，提高效率。概念：同步：当客户端发送请求给服务端，在等待服务端响应的请求时，客户端不做其他的事情。当服务端做完了才返回到客户端。这样的话客户端需要一直等待。用户使用起来会有不友好。异步：当客户端发送给服务端请求时，在等待服务端响应的时候，客户端可以做其他的事情，这样节约了时间，提高了效率。存

2020-10-20 12:22:45 1554 1

原创电商项目

前言：数据库和数据仓库一组图片来更快的理解：https://blog.youkuaiyun.com/bjweimengshu/article/details/79256504数据库：是按照数据结构来组织存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期存储在计算机内，有组织的，可共享的数据集合。数据库中的数据指的是以一定的数据模型组织，描述和存储在一起，尽可能小的冗余，较高的数据独立性和数据易扩展性的特点并且可以在一定的范围内为多个用户共享。常用的数据库有Oracle，Mysql和SQLserv

2020-10-17 16:54:18 305

空空如也

空空如也