
大数据
文章平均质量分 80
Hadoop,spark,hive,sqoop等等一些大数据和数据分析方面的感悟学习
北极光。
这个作者很懒,什么都没留下…
展开
-
Flink学习(二)
WindowFlink处理的流式数据是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。切割拆分的时候有两种拆分方法,一种是按数据集大小拆分,即按数量拆分CountWindow。还有一种是按照时间划分区间TimeWindow。对于 TimeWindow,可以根据窗口实现原理的不同分成三类:滚动窗口(Tumbli原创 2021-03-09 20:31:04 · 465 阅读 · 0 评论 -
Flink学习笔记(一)
什么是FlinkApache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎Flink可以做什么Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。实时推荐系统实时报表实时数仓与ETL实时欺诈与实时信用评估大数据安全监测等等目前,阿里巴巴、腾讯、美团、华为、滴滴出行、携程、饿了么、爱奇艺、有赞、唯品会等大厂都已经将原创 2021-03-09 16:55:31 · 290 阅读 · 0 评论 -
SparkML(五)
聚类k-means算法k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。k-means算法的基本过程如下所示:任意选择k个初始中心c1,c2,…,ckc{1},c{2},…,c_{k}c1,c2,…,ck 。计算X中的每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;重新计算每个中心对象CiC_{i}Ci的值计算标准测度函数,当满足一原创 2021-02-10 16:11:41 · 239 阅读 · 1 评论 -
SparkML(四)
回归回归问题其实就是求解一堆自变量与因变量之间一种几何关系,这种关系可以是线性的就是线性回归,可以是非线性的就是非线性回归。按照自变量的多少有可以分为一元线性回归,多元线性回归。线性回归线性回归,顾名思义拟合出来的预测函数是一条直线,数学表达如下:h(x)=a0+a1x1+a2x2+…+anxn+J(θ)其中 h(x)为预测函数, ai(i=1,2,…,n)为估计参数,模型训练的目的就是计算出这些参数的值。而线性回归分析的整个过程可以简单描述为如下三个步骤:寻找合适的预测函数,即上文中的h(x原创 2021-02-10 15:41:58 · 713 阅读 · 0 评论 -
SparkML(三)
分类逻辑回归在spark官方文档中,逻辑回归又分为二项式逻辑回归和多项式逻辑回归。逻辑回归本质是线性回归,只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和,然后将求和后的结果应用于一个g(z)函数,g(z)可以将值映射到0或者是1上面,这个函数就是Sigmoid函数,默认分类的值是0.5,超过0.5则类别为1,小于0.5类别为0。如下图例子import org.apache.spark.ml.classification.LogisticRegression// Load t原创 2021-02-09 15:52:37 · 474 阅读 · 0 评论 -
SparkML(二)
有监督学习概念:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。有监督算法常见的有:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。分类和回归有监督分为分原创 2021-02-08 15:02:51 · 199 阅读 · 0 评论 -
SparkML(一)
什么是机器学习百度:机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。在我看来机器学习就是给你的计算机一套逻辑(建模训练),让他根据这套逻辑去对数据进行处理(测试)。Spark MLSpark MLlib是Spark的机器学习(ML)库。它的目标是使实用的机器学习可扩展且容易数据处理spark ML有2种类型局部向量:dense和sparse。 稠原创 2021-02-08 12:51:57 · 2121 阅读 · 0 评论 -
SQL优化(三)
group bygroup by一般分两种,一种是使用索引分组(又有松散的索引扫描和紧凑的索引扫描两种),一种使用临时表分组。其中走索引的分组时间消耗会小的多,所以我们应该尽量让sql走索引。在MySQL8之前,分组默认是排序的,8之后不在排序。索引分组使用索引分组又有两种,分别是松散的索引扫描和紧凑的索引扫描。在索引中的列是已经按照索引的顺序进行分组的数据。松散的索引扫描根据group by后面的列取出索引中对应的列,再根据where条件进行筛选。紧凑的索引扫描先根据where条件进行筛原创 2020-12-14 11:33:50 · 110 阅读 · 0 评论 -
SQL优化(二)
order by排序方式一般分两种,在索引中排序(索引里面数据有序),在内存中排序(内存不够的话会产生临时文件辅助排序)。其中走索引的排序会快很多。索引排序既然我们知道排序走索引会快很多,那我们排序时应该尽量让排序走索引。那什么情况下排序会走索引呢?我们知道查询排序语句一般由这几个部分构成:select +where+order by+limit…等等。所以SQL走不走索引主要由这几部分的限制决定。...原创 2020-12-13 16:06:37 · 113 阅读 · 0 评论 -
SQL优化(一)
减少select *的使用select * 会增加网络IO压力,查询时间,内存等等。因为select* 是查询所有列,MySQL会把查到所有列发送给客户机,如果查询无用列增多,会增加网络IO的压力。Joinjoin可以看做是两个表做循环 ,表A为驱动表,表B为被驱动表。扫描将表A的数据循环一遍,每一条表A的数据都和表B所有数据进行链接。驱动表选择结果集少的小表一趟for循环的代价+大表上使用B+树索引的代价<大表一趟for循环的代价+小表使用B+树索引的代价如果表A有10条数据,表B有2原创 2020-12-03 21:10:41 · 170 阅读 · 0 评论 -
虚拟机非正常关机导致不能启动
状态1打开虚拟机一直黑屏,关闭提示该虚拟机繁忙。解决办法:用管理员身份调出cmd输入netsh winsock reset重启电脑状态2解决办法问题是虚拟机在运行的时候,会锁定你的虚拟机的文件,防止系统被更改,如果系统突然崩溃了的话,那么虚拟机没法给已经锁定的文件解锁,那么在启动的时候就没法使用虚拟机。找到虚拟机所在的文件夹,删除所有以.lck结尾的文件。注意,在一个虚拟机里面可能有1多个lck文件。删除之后再尝试开虚拟机即可...原创 2020-12-02 20:19:20 · 856 阅读 · 0 评论 -
Scala和Java详细对比
Scala是什么百度百科:Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。我的理解:Scala是java的强化版,也是基于jvm的编程语言,可以直接调用所有java的库资源,同时其具备函数式编程的特性以及脚本语言的特性,语法更加简洁,功能更加强大相比java的优点优雅:这是框架设计师第一个要考虑...原创 2020-03-17 16:34:21 · 2457 阅读 · 0 评论 -
搭建CDH
版本centos7,再克隆一台。一.基础配置1.配置网络:采用Nat方式联网。2. vim /etc/sysconfig/network-scripts/ifcfg-ens33ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.80.3NETMASK=255.255.255.0GATEWAY=192.168.80.2DNS1=202.196.32....原创 2019-05-21 15:30:34 · 491 阅读 · 0 评论