- 博客(115)
- 收藏
- 关注

原创 配置免密登录报错:ssh: Could not resolve hostname note1: Name or service not known
这两天配置免密出现这个错误:[root@note4 .ssh]# ssh note1ssh: Could not resolve hostname note1: Name or service not known1.设置主机名对不对查看:hostnamectl修改:hostnamectl set-hostname 主机名 --static2.修改[root@note4 .ssh...
2020-03-19 14:22:18
20919
原创 windows基础命令
学习网络安全前还需要学习一些基础的windows命令:掌握windows系统文件及目录操作命令掌握windows网络相关命令
2023-08-01 21:35:19
1009
原创 vmware中windows操作系统虚拟机安装
文件-新建虚拟机典型-下一步稍后安装操作系统-下一步window10 64x -下一步修改虚拟机名称及位置-下一步默认60g,至少大于40g-将虚拟磁盘拆分成多个文件夹-下一步点击完成。
2023-07-28 22:13:16
934
原创 hive中正则表达式查找IP段
正则表示IP段:59.48.236.x1.网上查的这个拼接出来有问题,我想要的是前面可以固定的,但是后面的这个匹配的是包含的select ip from aa where ip regexp '^([59]+\\.)+([48]+\\.)+([236]+\\.)+([1-9]\\d)$' ;2.解决固定问题 select ip from aa where ip regexp '^(59\\.48\\.236\\.54)$' ;3.最后成功59.48.236.x..
2021-07-21 22:00:07
1819
1
原创 Hive中的sql
sql中的where、group by 、having的使用解析group by一般用到的就是“每”这个字。例如说明现在有一个这样的表:每个部门有多少人 就要用到分组的技术。having是分组(group by)后的筛选条件,分组后的数据组内再筛选where则是在分组前筛选where子句中不能使用聚集函数,而having子句中可以,所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用。即having子句的适用场景是可以使用聚合函数having 子句限制的是组,而不是行.
2021-07-21 21:51:33
444
原创 sqoop将hive数据导入mysql报错
sqoop export \--connect 'jdbc:mysql://192.168.1.135:3306/safe_manager?useUnicode=true&characterEncoding=utf-8' \--username root \--password Free-Wi11 \--table bigscreen_line1 \--input-null-string '\\N' --input-null-non-string '\\N' \--export...
2021-01-29 13:22:19
2079
原创 hive获取近12个月数据
样式一:2020-11 0SELECT DATE_FORMAT(CURRENT_DATE, 'Y-M') AS `month`,count(class_name) from t3 where DATE_FORMAT(updatetime,'Y-M')=DATE_FORMAT(add_months((CURRENT_DATE),0),'Y-M')UNION SELECT DATE_FORMAT(add_months((CURRENT_DATE),-1),'Y-M') AS `...
2021-01-14 14:11:36
3724
原创 数据清洗---mapreduce
现在拿到一段web日志:192.168.1.1 a001 [20160113_06:51:35 +0000] www.efeihu.com/book/children/24196262 300 5000 windows "http://food.chocolate/12312314"192.168.1.1 a001 [20160113_06:51:35 +0000] www.efeihu.com/food/chocolate/12312314 300 5000 windows "http://food.
2020-11-26 23:54:38
488
原创 可视化--Superset的安装与配置
1.Superset概述:ApacheSuperset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。2.安装Superset官网地址:http://superset.apache.org/2.安装Superset2.1 安装Python环境Superset是.
2020-11-19 17:21:01
1675
原创 hive中的爆炸函数( lateral view 与 explode详解)
explode就是将hive一行中复杂的array或者map结构拆分成多行。lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。explode将复杂结构一行拆成多行,然后再用lateral view做各种聚合。例:select * from t
2020-11-16 20:07:29
14129
原创 大数据技术之高频面试题
第一章项目涉及技术1.1Linux&Shell1.1.1 Linux常用高级命令 序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装) .
2020-11-12 20:32:40
11215
2
原创 正则表达式最详解
正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。模式描述在搜索文本时要匹配的一个或多个字符串。1.正则表达式基本语法两个特殊的符号'^'和'$'。他们的作用是分别指出一个字符串的开始和结束。例子如下:"^The":表示所有以"The"开始的字符串("There","The cat"等);"of despair$":表示所以以"of despair"结尾的字符串;"^abc$":表示开始和结尾都是"abc"的字符串——呵呵,只有"abc"自己
2020-11-11 15:35:17
679
原创 hivesql中的函数:(concat,concat_ws,group_concat,str_to_map,LIKE,REGEXP_REPLACE,REGEXP_EXTRACT,RLIKE)
hivesql中的函数:1.concat函数 CONCAT()函数用于将多个字符串连接成一个字符串。 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。可以有一个或多个参数。 hive> select concat('a','b'); ab hive> select concat('a','b',null); NULL2.concat_ws函数 是CONCAT()的特殊形式。第一个参数是其它参...
2020-11-04 17:34:30
1730
原创 大数据面试题
1.11.什么是数据库?2.什么是数据仓库?3.什么是业务?4.什么是面向主题?5.数据一致性怎么理解?6.数据来源?7.日志数据和业务数据都是哪些?8.风控和画像是啥?9.项目技术选型?10.框架版本选型?11.服务器选物理机还是云主机?12.如何确认集群规模?你们公司用几台虚拟机?13.nginx服务器做什么?14.为什么需要kafka?15.埋点的数据怎么被采集的?16.你们公司的日志文件一天有多少?17.你们公司有多少人?有哪些部门
2020-11-03 20:32:55
268
1
原创 英语学位英语
再过几天就是学位英语考试了,之前有点轻视了,直到做了套题才发现现在有多菜。只能临阵磨枪了,可不能学我哦。1.考试题题型 分值 完成对话 10分 /1分 阅读理解 40分/2分 语法和词汇 20分/1分 英译汉 15分 写作 15分(100词以上) 总分 100分(120分钟) 2.60分及格,以分值的高低及难易程度从上向下排列:阅读理解的40分,作文的15分,完成对话的10分,英译汉15分,语法和词汇20分,按这样的顺序开..
2020-11-03 19:44:41
636
原创 项目---累积型快照事实表sql
ods:新增及变化 --》 每天分区里面存放的是新增的与变化的数据drop table if exists ods_coupon_use;create external table ods_coupon_use( `id` string COMMENT '编号', `coupon_id` string COMMENT '优惠券ID', `user_id` string COMMENT 'skuid', `order_id` string COMMENT ...
2020-11-03 19:15:13
2298
原创 数据仓库的分层
数仓为什么要分层?1.把复杂问题简单化 把复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位。2.减少重复开发 规范数据分层,通过中间层数据,能够减少极大的重复计算,增加一次结果的重复性3.隔离原始数据 不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。数据仓库分层:ODS层:原始数据层,存放原始数据,直接加载原始日志,数据保持原貌不做处理。DWD层:对ODS层数据进行清洗(去空值,脏数据,超过极限范围的数据),维度退化(小表和成大表),脱敏(手机...
2020-10-29 20:35:38
1240
原创 数据仓库的同步策略
目录同步策略四种表20张表分别属于什么分区策略数据的同步主要得益于:数据仓库的同步策略,它的同步策略有四种。同步策略全量同步策略:每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表数据量不大,且每日都有新数据插入,也会有旧数据修改的场景。例如:编码字典表,且每天即会有数据插入,也会有旧数据的修改的场景。增量同步策略:每日增量, 就是每天存储一份增量数据,作为一个分区。适用于数据量大,且每天只会有新数据插入的场景。例如:退单表
2020-10-28 20:06:59
1340
原创 大数据面试题汇总(含数仓)
10月22日1.zookeeper中尽可能多的创建节点好吗?每个节点都会存储东西,如果太多节点就会使它的它的性能不好。2.zookeeper的一个节点上默认存储多少的数据?3.在你接触的项目里面,你的zookeeper在哪些地方使用了?hadoop 的HA,其他的一些HA场景Kafka ,hbase,spark streaming与kafka整合还有一些场景:配置文件管理(例),负载均衡,动态上下线...4.zookeeper是怎样进行监听的?某...
2020-10-23 17:46:51
1051
原创 zookeeper的一致性配置管理
参考:https://blog.youkuaiyun.com/u013468915/article/details/80955110配置:public class CommonConfig implements Serializable{ // 数据库连接配置 private String dbUrl; private String username; private String password; private String driverClass; public Co.
2020-10-23 16:57:44
228
原创 Flume的拦截器原理及其配置
配置:file-flume-kafka.confflume中主要用到的就是配置文件com.bigdata.flume.interceptor.LogETLInterceptor和com.bigdata.flume.interceptor.LogTypeInterceptor是自定义的拦截器的全类名。需要根据用户自定义的拦截器做相应修改。拦截器:它的里面有两个自定义的拦截器,一个是数据清洗的拦截器,一个是日志类型的拦截器。拦截器就相当于map,有kv值。key :就是头,给他个名字叫做.
2020-10-23 11:44:37
941
原创 java面试题及答案
面向对象编程(OOP)Java 是一个支持并发、基于类和面向对象的计算机编程语言。下面列出了面向对象软件开发的优点:代码开发模块化,更易维护和修改。代码复用。增强代码的可靠性和灵活性。增加代码的可理解性。面向对象编程有很多重要的特性,比如:封装,继承,多态和抽象。下面的章节我们会逐个分析这些特性。封装封装给对象提供了隐藏内部特性和行为的能力。对象提供一些能被其他对象访问的方法来改变它内部的数据。在 Java 当中,有 3 种修饰符:public,private 和 prot.
2020-10-22 17:33:24
2914
原创 Hadoop中hdfs小文件处理
假如有128G的小文件,那么它会有多少字节那?一个小文件:占用namenode多大内存150字节;128 * 1024*1024*1024byte/150字节 = 9亿文件块(1KB(Kilobyte,千字节)=1024B= 2^10 B;1MB(Megabyte,兆字节,百万字节,简称“兆”)=1024KB= 2^20 B;1GB(Gigabyte,吉字节,十亿字2113节,又称“千兆”)=1024MB= 2^30 B。)怎么解决呢?(1)采用har归档方式,将小文件归档我们...
2020-10-20 18:22:35
808
原创 线程池
转自:创天创世纪目录线程池的概念:四种常见的线程池详解:缓冲队列BlockingQueue和自定义线程池ThreadPoolExecutor线程池的概念: 线程池就是首先创建一些线程,它们的集合称为线程池。使用线程池可以很好地提高性能,线程池在系统启动时即创建大量空闲的线程,程序将一个任务传给线程池,线程池就会启动一条线程来执行这个任务,执行结束以后,该线程并不会死亡,而是再次返回线程池中成为空闲状态,等待执行下一个任务。2. 线程池的工作机制 ...
2020-10-20 17:16:43
100
原创 lockback的使用
转载于:java风云目录logback简介logback配置介绍logback.xml配置详解logback简介logback是由log4j的创始人开发的新日志框架,包括三个模块:logback-core logback-classic logback-accesslogback-core是核心模块,logback-classic是日志框架,相当于log4j,logback很好的实现了slf4j,logback-access提供跟web 容器有关的日志访问功能。logb
2020-10-20 16:47:48
1125
原创 大白话--java中同步异步,并行并发,线程安全不安全的区别
同步与异步的区别:举个例子:同步:就相当于起床,要先穿衣服,再穿鞋,再洗漱;是按一定顺序的,你做一件事的时候就不能做另一件事。异步:就相当于你吃饭和看电视这两件事情是可以一起进行的,能够节约时间,提高效率。概念:同步 :当客户端发送请求给服务端,在等待服务端响应的请求时,客户端不做其他的事情。当服务端做完了才返回到客户端。这样的话客户端需要一直等待。用户使用起来会有不友好。异步:当客户端发送给服务端请求时,在等待服务端响应的时候,客户端可以做其他的事情,这样节约了时间,提高了效率。存
2020-10-20 12:22:45
1473
1
原创 电商项目
前言:数据库和数据仓库一组图片来更快的理解:https://blog.youkuaiyun.com/bjweimengshu/article/details/79256504数据库:是按照数据结构来组织存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期存储在计算机内,有组织的,可共享的数据集合。数据库中的数据指的是以一定的数据模型组织,描述和存储在一起,尽可能小的冗余,较高的数据独立性和数据易扩展性的特点并且可以在一定的范围内为多个用户共享。常用的数据库有Oracle,Mysql和SQLserv
2020-10-17 16:54:18
265
原创 Spark考试题总结
一.选择判断1.单选下面哪个不是 RDD 的特点 ( )A.可分区 B.可序列化 C.可修改 D.可持久化关于累加器,下面哪个是错误的 ( )A.支持加法B.支持数值类型C.可并行D.不支持自定义类型Scala语言中,以下说法正确的是()A.常量和变量都可以不用赋初始值B.常量需要赋初始值,变量可以不用赋初始值C.常量和变量都需要赋初始值D.常量不需要赋初始值,变量必须赋初始值下面对MapReduce描述错误的是( )A. 适合离线批处理 B. 具有很好的容...
2020-10-12 17:27:03
26119
4
原创 scala知识点总结
Scala的相关总结:什么是scalaScala是一门以java虚拟机为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。scala 的特点作为一门语言非常简洁高效,是一门多范式的编程语言,支持面向对象和函数式编程。 编译成成Java字节码,然后运行于JVM之上,并可以调用现有的java类库,实现两种语言的无缝对接。 将函数式编程语言的特点融合到JAVA中。 函数是头等公民scala和java 有什么区别?1,变量的声明 变量var 常量val scala支持自动类型推测
2020-09-28 16:37:43
509
原创 博客园美化(最全)
1.这个作者的是目前找的最全的https://www.cnblogs.com/anan-java/p/12196061.html#_label32.这个也还行,只是很多上面写的更全一些,样式更好看写https://www.cnblogs.com/zouwangblog/p/10996446.html3.这个是小猫版本的,会更可爱些https://www.baidu.com/l...
2020-09-27 10:20:00
64
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人