- 博客(158)
- 资源 (1)
- 收藏
- 关注
原创 003__JAVA模板方法-设计模式
定义了一个算法的骨架,并允许子类为一个或多个步骤提供实现举个例子,把大象放进冰箱分几步,第一打开冰箱,第二打大象放进冰箱,第三把冰箱关闭。这三个步骤就可以用模板方法的设计模式。
2023-02-19 21:21:22
616
原创 001__JAVA集合(List丶Set丶Map)
讲解java集合中的几大分类及其特点详解:List(有序,可以重复, 有索引)丶Set(无序,不重复, 无索引)丶Map(键值对,键唯一)
2023-02-18 17:51:30
814
原创 005__Hadoop常用命令大全
原文链接:https://blog.youkuaiyun.com/weixin_44441131/article/details/116657184。版权声明:本文为优快云博主「InceptionZ」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。hdfs dfs -du -h dir 按照适合阅读的形式人性化显示文件大小。hdfs dfs -du path/file显示目标文件file的大小。hdfs dfs -dus uri 递归显示目标文件的大小。打印出正被检查的文件。
2023-02-06 23:29:20
447
原创 01sklearn-机器学习的几种算法(附代码)
机器学习:朴素贝叶斯、决策树、随机森林、线性回归,逻辑斯蒂回归,岭回归,KNN,K-means等分类算法和回归算法,还有常见的特征工程:特征预处理丶特征抽取丶降维等等
2023-02-02 23:18:53
1938
转载 二丶线性回归和logistic(逻辑斯蒂)回归
说明:线性回归和Logistic回归他们两个解决的并不是一类问题,名字的话,的确很容易让人误导,这两者的区别:线性回归是用来解决回归问题,而Logistic回归是用来解决二分类问题的,一个是回归,一个是分类, 这两大类型也是机器学习主要解决的,回归问题可以理解为一群连续输出的点,找到一条线或者曲线来预测薪资,房价;分类问题则是输出为有限的离散数据,比如将医疗数据分为是否患上了肿瘤,由此可见两者完全是用来解决不同类型问题的,绝对不能混到一块来说。...
2022-08-27 12:10:15
3410
原创 004__Hadoop原理讲解(面试题)
Hadoop组件说明丶HDFS的读写流程图丶集群启动时的各个进程作用说明丶Yarn调度的流程丶MapReduce的运行原理流程讲解
2022-07-30 19:20:06
516
原创 使用tez引擎出现内存溢出问题
tez引擎出现: java.lang.OutOfMemoryError: Java heap space 问题
2022-05-07 18:52:16
2484
2
原创 =============
我渴望能见你一面,但我清楚地知道,唯有你也想见我的时候,我们的见面才有意义。 —— 波伏娃 我们终其一生不是为了满足所有人,而是为了找到同频共振的一部分人....... —— 房琪......
2022-04-22 19:52:46
189
原创 解决Echarts默认值为NaN问题
只需要将echarts的下面属性进行修改就可以了,我们可以在下面代码逻辑中添加自己的逻辑: tooltip: { trigger: 'item', formatter: function (params) { if(params.value){ return params.seriesName + '<br/>' + params.name + ' : ' + params.value; }
2022-04-16 18:34:03
5005
原创 解决:echars的data值:在js中获取request域中的集合遍历问题
解决: 在js中获取request域中集合遍历取值问题解决: 方便快捷获取echars中的data值问题解决: JSON传值问题
2022-04-07 11:09:09
1498
转载 在linux上下载python3
Centos7安装Python3的方法由于centos7原本就安装了Python2,而且这个Python2不能被删除,因为有很多系统命令,比如yum都要用到。[root@VM_105_217_centos Python-3.6.2]# pythonPython 2.7.5 (default, Aug 4 2017, 00:39:18)[GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux2Type “help”, “copyright”, “cre
2022-04-05 11:06:50
4222
原创 阿里云离线数仓
1.项目流程图使用框架说明:ECS云服务器;DataHub:类似于kafka的软件,可以做数据缓冲,削峰MaxCompute: 类似于hadoop+hive+ 定时调度的大数据计算框架;DataWorks: 是MaxCompute的视图管理框架;Quick BI: 做最后的可视化视图展示,倾向于离线数据的展示;DataV: 大屏幕视图展示框架, 倾向于实时的计算,更加的炫酷;RDS: RDS是云数据库的统称2. 框架的使用说明: 上面几个软件都是阿里云的收费,都可以在视图上直接进行
2022-04-02 15:54:47
1811
1
原创 mysql在windows上下载
示例下载:这里我们下载的是5.0版本的.原因:有部分电脑下载8.0版本会出现错误问题mysql官网直达地址: 自行选择版本步骤1.将下载好的mysql进行解压到路径, 然后配置环境变量,这一步大家应该都会,就不说了2. 编辑my.ini文件,内容如下:(路径修改成自己的)[mysqld] basedir=D:\Program Files\mysql-5.1\ datadir=D:\Program Files\mysql-5.1\data\port=3306skip-grant-tabl
2022-03-29 12:16:15
1834
原创 flume监控: kafka输出到hdfs示例
需求: 1.将kafka中的数据采集传输到hdfs当中 2.采用的是lzo压缩的方式(也可以不采用压缩方式,flume官网有) 3.这里使用的是两个主题kafka主题采集a1.sources=r1 r2a1.channels=c1 c2a1.sinks=k1 k2# kafka sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSourcea1.sources.r1.channels = c1a1.sourc
2022-03-27 11:49:36
2195
原创 flume拦截器的使用
例子需求说明:我们现在需要将日志中的数据读取到kafka当中且需要区分数据的,分别写入到两个不同的主题当中flume作业conf配置如下:source : taildir 实现断点续传channel : 使用kafkachannel 写入到两个主题当中sink : 没有使用拦截器: 使用i1,i2两个拦截器i1:做数据的清理, 防止脏数据,ETL拦截器i2:做头部信息添加, 分类型拦截器选择器:根据头部信息进行输出到kafka的哪个主题当中a1.channels=c1 c2a
2022-03-27 10:59:57
3165
原创 Azkaban的安装部署
1.安装前准备(1)将 Azkaban Web 服务器(azkaban-web-server-2.5.0.tar.gz)、Azkaban 执行服务器 ( azkaban-executor-server-2.5.0.tar.gz ) 、 Azkaban 的 SQL 执 行 脚 本 (azkaban-sql-script-2.5.0.tar.gz)及 MySQL 安装包(mysql-libs.zip)复制到 hadoop102 虚拟机 的/opt/software 目录下。(2)Azkaban 建立了一些
2022-03-26 16:24:15
1137
转载 Cannot obtain block length for LocatedBlock
Cannot obtain block length for LocatedBlock说明: 当HDFS上文件在被写入时,在未关闭文件之前,写入操作异常终止,此文件就会保有openforwrite的状态,不能对文件进行cat和get操作常见场景:Flume在对HDFS进行文件写入操作时,HDFS服务终止,文件没及时关闭。当MR读取该文件时,也无法使用cp或者get命令,会抛异常:java.io.IOException:java.io.IOException: Cannot obtain bloc
2022-03-23 16:02:27
336
原创 4.kylin的Cube的构建优化
一丶Cube的构建算法逐层构建算法:说明:我们知道,在逐层算法中,按维度层数减少来计算,每一层级的计算,是基于他上一层级的结果来计算的,每一轮的计算都是一个 MapReduce 任务,且串行执行;一个 N 维的Cube,至少需要 N 次 MapReduce Job。图解:优点:此算法充分利用了 MapReduce 的优点,处理了中间复杂的排序和 shuffle 工作,故 而算法代码清晰简单,易于维护;受益于 Hadoop 的日趋成熟,此算法非常稳定,即便是集群资源紧张时,也能保证 最终能够完
2022-03-19 10:34:16
2045
原创 3.kylin在linux上定时调度脚本
kylin 查询数据,在linux中进行定时调度的脚本:#!/bin/bash cube_name=order_cube do_date=`date -d '-1 day' +%F` #获取 00:00 时间戳 start_date_unix=`date -d "$do_date 08:00:00" +%s` start_date=$(($start_date_unix*1000)) #获取 24:00 的时间戳 stop_date=$(($start_date+86400000)) c
2022-03-18 10:15:01
463
原创 2.kylin的架构和特点
前提知要(术语):OLAP和OLTP的区别:OLAP(On-Line Analytical Processing)联机分析处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。应用在数据仓库,使用对象是决策者。OLAP系统强调的是数据分析,响应速度要求没那么高,也称为: 多维分析。OLTP(On-Line Transaction Processing)联机事务处理,它使分析人员能够迅速、一致、
2022-03-17 17:15:16
601
原创 1.Kylin的安装部署
前提条件:Hadoop的安装: (记得配置历史服务)hadoop3.x版本安装部署–>直达注意: 需要判断配置的历史服务是否管用Zookeeper的安装:zookeeper的安装链接部署–>直达Hbase的安装:hbase的安装部署地址->>直达Hive元数据的启动:hive安装部署地址–> 直达注意:系统上已经安装了hadoop, hive, hbase,并且配置且生效了环境变量;在启动 Kylin 之前,需要先启动 Hadoop(HDFS、YARN
2022-03-17 16:08:57
1911
原创 mysql出现 :Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated colu
我在使用superset的时候发现有一些不使用聚合函数不能使用,百度了一下,得出结论:产生原因: 版本问题MySQL 5.7.5及以上功能依赖检测功能。如果启用了ONLY_FULL_GROUP_BY SQL模式(默认情况下),MySQL将拒绝选择列表,HAVING条件或ORDER BY列表的查询引用在GROUP BY子句中既未命名的非集合列,也不在功能上依赖于它们。(5.7.5之前,MySQL没有检测到功能依赖关系,默认情况下不启用ONLY_FULL_GROUP_BY。有关5.7.5之前的行为的说明,请
2022-03-16 19:07:43
216
原创 linux执行脚本出现错误
问题: 没有找到文件或目录丶/bin/bash^M: 坏的解释器等问题开始以为是我的一些粗心问题导致可能哪里写错了,后面仔细对比了几次,发现并没有,而是由下面原因造成的:原因:在windows下编辑的时候,换行结尾是\n\r , 而在linux下 是\n 会有问题,还有一些其他格式问题;下面这个命令会把 test.sh文件 中的\r 替换成空白:sed -i ‘s/\r$//’ test.sh这就ok了,可以执行成功了!!!...
2022-03-12 15:32:50
2257
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人