
大数据
文章平均质量分 58
行路者-慢慢来
计算机改变自己
展开
-
PySpark数据分析
PySpark数据处理原理实验步骤步骤1:使用Python链接Spark环境import pandas as pdfrom pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName('pyspark') \ .getOrCreate()# 原始数据 test = spark.createDataFrame([('001','1',100,87,67,83,98), (原创 2022-03-01 13:43:02 · 3319 阅读 · 0 评论 -
怎么理解namenode中的fsimage和edits文件
怎么理解这两个文件?这两个文件本质上是一样,都是备份。先从盘古开天地讲起,(给你设计你会怎么设计)一开始,光有namenode进程,还并没有这两个文件的概念,当外部客户端有操作了,namenode进程把客户端的操作生成元数据,在进程中记录下来,也就是可能在内存维护一个列表数据结构之类的什么吧。就这样吧,能用了问题是这样直接记录在内存中,一掉电这些信息就丢了(服务器不重启就还能好...转载 2019-06-06 14:52:25 · 992 阅读 · 0 评论 -
读《python 数据分析与挖掘实战》之二
python数据分析工具介绍:原创 2019-05-29 16:00:50 · 230 阅读 · 0 评论 -
读《python数据挖掘与分析》之三
数据探索数据质量分析1. 数据质量分析的主要任务是检查原始数据中是否存在脏数据(不符合要求,不能进行相应分析的数据)包括以下1.缺失值,2.异常值,3.不一致的值,4.重复数据及含有特殊符号的数据缺失值分析:1.缺失值主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确 缺失值产生的原因:1.分析前无法获取的信息,或者信息的代价太大。2.有些信息是被遗漏的。3...原创 2019-05-29 16:06:55 · 295 阅读 · 0 评论 -
读《python数据挖掘与分析实战》之五
接上一篇异常值处理在数据预处理,异常值是否剔除,需视具体情况而定,因为异常值可能蕴含着有用的信息将含有异常值的记录直接删除的方法简单易行,但缺点也很明显,在观测值很少的情况下,这种删除会造成样本量不足,可能会改变变量的原有分布从而造成分析结果的不确定,视为缺失值处理的好处是可以利用现有变量的信息,对异常值进行填补数据集成数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将...原创 2019-06-03 09:04:13 · 708 阅读 · 0 评论 -
足球运动员分析
数据集数据集背景:我们关注足球运动员的如下内容:足球运动员是否受出生日期的影响? 左撇子适合踢足球吗? 足球运动员的号码是否与位置有关? 足球运动员的年龄与能力具有怎样的关联? 哪些技能会对足球运动员的综合能力造成较大的影响? 任务说明:这是2019年现役运动员的数据集,我们希望通过该数据集,针对众多的足球运动员进行分析与统计,从而能够发现一些关于足球运动员的特...原创 2019-06-14 16:45:35 · 1570 阅读 · 2 评论 -
读《python数据挖掘与分析实战》之九
决策树决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。ID3算法简介及基本原理ID...原创 2019-06-10 10:12:29 · 267 阅读 · 0 评论 -
Hadoop中NameNode、DataNode和Client三者之间的通信方式是什么?怎样进行合作?
一直没有重视三者之间的通信问题,在此整理一下提问:datanode之间有没有交互?Hadoop安装时ssh如何配置?1.背景知识:在Hadoop系统中,master/slaves/client的对应关系是:master---namenode;slaves---datanode;client---dfsclient;通信方式简单地讲:client和namenode之间是通过rpc通...原创 2019-06-04 11:02:36 · 4134 阅读 · 1 评论 -
读《python数据挖掘与分析实战》之六
数据规约在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率数据规约的意义:1.降低无效,错误数据对建模的影响,提高建模的准确性。2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间,3.降低存储数据的成本属性规约通过属性合并来创新属性维数,或者直接通过删除不相关的属性(维)来减少数据维数,从而...原创 2019-06-04 11:11:17 · 254 阅读 · 0 评论 -
超详细!终于有人把云计算、大数据和人工智能讲明白了!
今天,日报哥特地邀请大神来跟大家讲讲云计算大数据人工智能为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。一、云计算最初的目标我们首先来说...转载 2019-06-11 15:32:38 · 758 阅读 · 0 评论 -
AQI分析与预测
背景信息AQI,指空气质量指数,用来衡量空气清洁或者污染程度,值越小,表示空气质量越好。任务说明哪些城市的空气质量较好/较差? 临海城市是否空气质量优于内陆城市? 空气质量主要受哪些因素影响 是否可以预测城市的空气质量? 是否可以预测城市是否临海?数据集描述我们现在获取了2015年空气质量指数集。该数据集包含全国主要城市的相关数据以及空气质量指数列名 含义City ...原创 2019-06-17 11:06:13 · 1031 阅读 · 7 评论 -
Linux性能监控可视化工具
https://www.cnblogs.com/L1079991001/p/10459591.htmlhttps://www.cnblogs.com/kevingrace/p/7300191.html原创 2019-06-11 17:36:35 · 5755 阅读 · 0 评论 -
HDFS RBF(基于路由的federation)的全局配额管理方案
前言前不久时间,Apache Hadoop发布了新的基线版本-Hadoop 3.0.0正式发布,过去一段时间我们看到的发布版本都是各种3.0 alpha,beta版本。此次Hadoop 3.0正式发布,具有非常重大的意义。在此次Hadoop 3.0版本中的HDFS模块,除了EC(纠删码)外,还有一个Feature特性也值得我们关注–RBF(Router-based Federation,基于路...转载 2019-07-23 17:05:07 · 846 阅读 · 0 评论 -
Hive的MapJoin机制 hive.auto.convert.join
什么是MapJoin?MapJoin顾名思义,就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。MapJoin的原理:即在map 端进行join,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。通常情况下,要连接的各个表里面的数据会分布在不同的M...原创 2019-08-12 10:01:03 · 11103 阅读 · 1 评论 -
hive错误
执行后mr报的错误如下FATAL ExecReducer: java.lang.UnsupportedOperationException: Currently the writer can only accept BytesRefArrayWritableat org.apache.hadoop.hive.ql.io.RCFile$Writer.append(RCFile.java:88...原创 2019-09-06 10:19:14 · 423 阅读 · 0 评论 -
数据分析方法论和数据分析的方法
数据分析方法论就相当于衣服的设计图纸,数据分析的方法就相当于制作一个完整的衣服我们需要使用剪刀裁剪,使用缝纫机缝纫,使用熨斗去熨衣服原创 2019-10-10 08:59:48 · 199 阅读 · 0 评论 -
读《python 数据分析与挖掘实战》之一
数据挖掘的基本任务数据挖掘的基本任务包括利用分类与预测,聚类分析,关联规则,时序模式,偏差检测,智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。数据挖掘建模过程定义挖掘目标针对具体的数据挖掘应用需求,首先要明确本次挖掘目标是什么?系统完成后能达到什么样效果?数据取样明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取一个与挖掘目标相关的样本数据子集。抽取数...原创 2019-05-29 11:00:37 · 263 阅读 · 0 评论 -
SVM原理说明
按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险...转载 2019-06-06 12:18:24 · 145 阅读 · 0 评论 -
Hbase学习之读流程解析
Hbase简介 Hbase是一个分布式,可扩展,面向列的适合存储海量数据的数据库,其中主要的功能是解决海量数据下的实时随机读写的问题,通常Hbase依赖HDFS作为底层分布式文件系统。1.1Hbase关键进程 Hbase是一个Master/Slave架构的分布式数据库,内部主要有Master,RegionServer两个核心服务,依赖HDFS做底层存储,依赖zookeeper做一...原创 2019-04-09 14:12:49 · 139 阅读 · 0 评论 -
HBase中得数据结构和组织架构
数据组织让我们回顾一下 HBase 数据的组织架构,首先 Table 横向切割为多个 HRegion ,按照一个列族的情况,每一个 HRegion 之中包含一个 MemStore 和多个 HFile 文件, HFile 文件设计比较复杂,这里不详细展开,用户需要知道给定一个 rowkey 可以根据索引结合二分查找可以迅速定位到对应的数据块即可。结合这些背景信息,我们可以把一个Read请求的处理...原创 2019-04-09 14:17:29 · 502 阅读 · 0 评论 -
Hbase学习之读优化
从客户端和服务端两个方面来深入了解优化的方法客户端层面HBase 读数据共有两种方式,Get 与 Scan。在通用层面,在客户端与服务端建连需要与 zookeeper 通信,再通过 meta 表定位到 region 信息,所以在初次读取 HBase 的时候 rt 都会比较高,避免这个情况就需要客户端针对表来做预热,简单的预热可以通过获取 table 所有的 region 信息,再对每一...原创 2019-04-09 14:29:35 · 521 阅读 · 0 评论 -
Linux下用户组、文件权限详解
用户组在linux中的每个用户必须属于一个组,不能独立于组外。在linux中每个文件有所有者、所在组、其它组的概念-所有者-所在组-其它组-改变用户所在的组所有者一般为文件的创建者,谁创建了该文件,就天然的成为该文件的所有者用ls‐ahl命令可以看到文件的所有者也可以使用chown用户名文件名来修改文件的所有者文件所在组当某个用...原创 2019-05-20 10:42:49 · 119 阅读 · 0 评论 -
mycat和zookeeper配合使用的转载
https://blog.51cto.com/ygqygq2/1974592原创 2019-05-15 16:58:04 · 629 阅读 · 0 评论 -
HDFS Federation
HDFS Federation使用了多个独立的NameNode/Namespace来使HDFS的命名服务能够水平扩展。在HDFS Federation中,NameNode之间是联盟关系,他们之间相互独立且不需要相互协调。HDFS Federation中的NameNode提供了命名空间和块管理功能。HDFS Federation中的DataNode被所有的NameNode用作公共存储块的地方。每一...原创 2019-05-24 14:48:56 · 339 阅读 · 0 评论 -
Federation的使用场景
使用场景扩展性 性能瓶颈 隔离问题 集群的可用性扩展性HDFS运行时将元数据存储在NameNode内存中,记录了每个文件对象内容(名称、权限、属组等)。NameNode内存使用量和文件个数相关,NameNode的内存的限制将制约文件存储数量。过大内存同时会导致以下问题:启动花费的时间太长。 Namenode在Full GC时,对外部应用的响应会产生延迟,如果发生错误...原创 2019-05-24 14:50:08 · 1172 阅读 · 0 评论 -
Hadoop官方文档——HDFS配额Quota
概述Hadoop分布式文件系统(HDFS)允许管理员为所使用的名称数量和单个目录使用的空间量设置配额。name quota和space quota独立运作,但这两种配额的管理和实施是相当类似的。name quotaname quota是对当前目录树中的文件和目录名称的数量的硬限制。如果超出配额,文件和目录创建将会失败。配额与重新命名目录操作绑定;如果操作会导致配额违规...原创 2019-05-16 14:26:56 · 1905 阅读 · 0 评论 -
读《python数据挖掘与分析实战》之七
python主要数据预处理函数每一个函数的使用可以自行百度,这里就不记录了,书上介绍还是挺全面的!!!小结本章介绍了数据预处理的4个主要任务:数据清洗,数据集成,数据变换和数据规约。数据清洗主要介绍了对缺失值和异常值的处理,处理缺失值的方法分为三类:删除记录,数据插补和不处理,处理异常值的方法有删除含有异常值的记录,不处理,平均值修正和视为缺失值;数据集成是合并多个数据源中的数...原创 2019-06-05 11:26:13 · 269 阅读 · 0 评论 -
python主要数据探索函数
python中用于数据探索的库主要是pandas和matplotlib。pandas提供了大量的与数据探索相关的函数,这些数据探索函数大致分为统计特征函数与统计作图函数,而作图函数依赖于maplotlib,所以往往又跟Matplotlib结合一起使用基本统计特征函数统计特征函数用于计算数据的均值,方差,标准差,分位数,相关系数和协方差等,这些统计特征能反映出数据的整体分布。具体使用...原创 2019-05-31 09:14:19 · 383 阅读 · 0 评论 -
读《python数据挖掘与分析实战》之四
数据预处理在数据挖掘中,海量的原始数据中存在着大量不完整,不一致,有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成,转换,规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或者工具。数据预处理的主要内容包括数据清洗,数据...原创 2019-05-31 11:07:09 · 344 阅读 · 0 评论 -
读《python数据挖掘与分析实战》之八
挖掘建模经过数据探索与数据预处理,得到了可以直接建模的数据,根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值实现过程(1)分类 分类...原创 2019-06-05 15:10:53 · 293 阅读 · 0 评论 -
拉格朗日插值法(图文详解)
在数值分析中,拉格朗日插值法是以法国十八世纪数学家约瑟夫·拉格朗日命名的一种多项式插值方法。许多实际问题中都用函数来表示某种内在联系或规律,而不少函数都只能通过实验和观测来了解。如对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日(插值)多项式。数学上来说,拉格朗日插值法可以给出一个恰好穿...原创 2019-05-31 16:34:48 · 2578 阅读 · 0 评论 -
项目连接
1.统计imooc主站最受欢迎的课程/手记http://localhost:8888/?token=d43760549510bac60642315b8760b21c76f2347a7a57f480原创 2019-04-10 16:58:23 · 1204 阅读 · 0 评论