
大数据
文章平均质量分 94
程序员老钟
这个作者很懒,什么都没留下…
展开
-
(史上最全傻瓜式教程)CM+CDH安装搭建全过程
一、安装前准备1.1、官网教程文档地址:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/install_cm_cdh.html1.2、安装环境 主机名 操作系统 角色 IP地址 cdh100 Centos 7.6 主节点 192.168.3.10原创 2021-07-02 11:32:47 · 7950 阅读 · 4 评论 -
CM+CDH安装搭建全过程(总结版)
目录第一次搭建CM、CDH第二次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第三次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第四次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第一次搭建CM、CD...原创 2021-07-02 10:44:44 · 3317 阅读 · 0 评论 -
Hadoop安全保护机制(Kerberos&LADP)详解
第一章 信息安全理论基础CIA模型:机密性、完整性和可用性CIA模型能够帮助建议一些信息安全原则,但该模型并不是一个需要严格遵守的规划Hadoop平台可能涉及多个CIA模型组件,也有可能一个也涉及不到1.1、机密性机密性:信息只应该被期望的接收者看到身份标识:使A和B参与机密信息传递的属于自己的唯一标志身份验证:证明自己的身份加密:将数学算法应用于信息片段,使加密后输出内容对于非预期接收者不可读解密:只有期望的接收者能对加密消息进行解密,从而得到原始信息 ...原创 2020-10-26 22:34:36 · 5367 阅读 · 0 评论 -
大数据简史(从结绳记事到如何成为数据科学家)
目录第一章 从结绳记事说起第二章 古代数据分析学科的发展赌博催生了概率论人口社会调查催生了数理统计数据分析与统计的应用——格朗特与死亡公报数据分析与统计的应用——斯诺与霍乱第三章 近代美国计算技术的发展与应用数据库的起源——打孔卡美军海军面对日本飞机自杀性攻击第四章 商业智能与营销管理理论的兴起罗伯特-麦克纳马拉关系型数据库之父——埃德加-科德商业智能的出现商业营销理论的发展第五章 大数据出现的标志性事件第六章 大数据时代大数据的时代.原创 2020-10-25 23:08:40 · 2366 阅读 · 0 评论 -
大数据、云计算和物联网的关系
目录云计算大数据物联网大数据、云计算和物联网的关系云计算云计算实现了通过网络提供的可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源起源:1996年康柏电脑公司使用CloudComputer发展:2006年亚马逊的AWS服务云计算特点共享资源池:计算、网络、存储等资源的池化和共享 快速...原创 2019-11-07 14:03:18 · 2284 阅读 · 0 评论 -
Spark中Standalone、Yarn和Mesos三种资源管理和任务调度框架的对比
Spark on Standalone:Standalone是SparkCore自带的集群资源管理框架,类似于MR V1.0采用的模式(JobTracker),内部实现了容错性和资源管理。内部架构:Client、Master、Worker Spark on Standalone的运行流程是将程...原创 2019-09-27 12:05:44 · 2594 阅读 · 0 评论 -
机器学习之聚类详解
聚类:试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需要由使用者来把握和命名。聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。1.基于距离的聚类算法K-均值算法:k-m...原创 2019-09-25 10:56:49 · 1351 阅读 · 0 评论 -
大数据之Hadoop生态圈学习笔记
目录第一章大数据发展趋势第二章 HDFS技术原理第三章 MapReduce分布式离线批处理第四章 YARN资源管理器第五章 ZooKeeper集群分布式协调服务第六章 HBase分布式NoSQL数据库第七章Hive数据仓库第八章Kafka第九章Flume第十章Loader第十一章Streaming第十二章Spark第十三章Flink...原创 2019-09-23 20:42:00 · 880 阅读 · 0 评论 -
机器学习之关联规则(支持度和置信度、Apriori算法)
关联规则及其基础:表1:购物篮例子的分析关联分析:用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则或频繁项集的形式表示。例如,从表1中可以提取出:{尿布} ⟹ {啤酒}(该规则表明尿布和啤酒的销售之间存在着很强的联系)。在对购物篮进行关联分析的时候,需要处理以下两个问题: 1、从大型事务数据集中发现模式可能在计算上要付出很高的代价;...原创 2019-09-23 20:34:18 · 39323 阅读 · 6 评论 -
通俗易懂—机器学习之支持向量机(SVM)
SVM的目标:找出能够最大化训练集数据间隔的最优分类超平面。例如,我们可以描绘一条直线然后所有代表男人的点都在直线的上边,代表女人的点都在直线的下边。这条黑色直线被称为分类超平面(如图0所示)。图0:分类超平面 ...原创 2019-09-23 20:17:41 · 1904 阅读 · 0 评论 -
机器学习之朴素贝叶斯计算全过程
朴素贝叶斯计算下面我们用上图数据集训练一个朴素贝叶斯分类器,对测试例X进行分类:X={age=youth,income=medium,student=yes,credit=fair}首先估计类先验概率P(Ci):P(buys_computer=yes)=9/14=0.643P(buys_computer=no)=5/14=0.357然...原创 2019-09-23 20:04:29 · 3859 阅读 · 0 评论 -
机器学习之决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算
决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算节选自周志华《机器学习》P75-P79页文末附上本人手工计算过程,方便理解...原创 2019-09-23 19:59:56 · 1742 阅读 · 0 评论