- 博客(22)
- 资源 (4)
- 收藏
- 关注

原创 【华为ICT大赛2022-2023-----云赛道】实验沙箱-注意事项-实验坑
【华为ICT大赛2022-2023-----云赛道】实验沙箱 注意事项 实验的坑
2022-11-29 12:12:15
1211
原创 华为大数据HCIP认证(HCIP-Big Data Developer V2.0) 考试大纲
华为大数据HCIP认证(HCIP-Big Data Developer V2.0) 考试大纲
2022-12-09 10:07:24
3162
原创 【2022-2023】华为ICT大赛实践赛——计算赛道,针对华为认证考取、考试题目类型、电脑端适配等问题问答
华为ICT大赛实践赛开设的全新赛道——计算赛道,针对华为认证考取、考试题目类型、电脑端适配等问题问答
2022-12-09 09:24:23
9212
3
原创 【华为ICT大赛2022-2023-----云赛道】加分项-沙箱实验流程及实验步骤
【华为ICT大赛2022-2023-----云赛道】加分项-沙箱实验流程及实验步骤
2022-11-29 10:10:33
2310
3
原创 4Pandas统计分析小实训
使用的文件一、解析文件1、导入插件,并可以显示中文import pandas as pd import numpy as np import matplotlib.pyplot as plt #用来显示中文标签 plt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示负号 plt.rcParams['axes.unicode_minus'] = False2、读取文件#1 获得数据data = pd.read_excel("
2022-04-07 11:31:12
1848
原创 4Pandas统计分析基础二
1、groupby方法groupby方法可以根据索引或字段对数据进行分组。格式为:DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)import pandas as pdimport numpy as np df = pd.DataFrame({'key1':['a','a','b','b','a'],'k
2022-04-07 11:07:42
1330
原创 Pandas统计分析基础一
一、Pandas概述注释:段落注释""""""单行注释:#快捷键注释:选中要注释的行 ctrl+/ (取消注释同理)Pandas(Python Data Analysis Library)是基于NumPy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需的工具,可以说Pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一。安装pandas的第三方包如果安装pandas失败,可以先装下pip,如下图导入方式:import
2022-04-07 10:13:36
2180
原创 NumPy数值计算基础
NumPy数值计算基础1、利用array函数创建数组对象array函数的格式:np.array(object, dtype,ndmin)import numpy as np data1 = [1,3,5,7] w1 = np.array(data1)print('w1',w1) data2 = (2,4,6,8) w2 = np.array(data2) print('w2',w2) data3 = [[1,2,3,4],[5,6,7,8]]w3 = np.array(dat
2022-03-17 11:39:55
2616
原创 HBase技术原理
HBase的介绍存储海量的,任何数据类型byte[](可以存任何数据类型),低延时,随机访问,处理海量数据,面向列的数据库,实时读写的分布式数据库系统。实时计算:flink spark有关Hbase是以HDFS为底层的数据存储,也是依赖于MapReduce作计算。 不支持join 以字节数组(byte[])来存储数据 设置稀疏,null的列,不占存储空间HBase表的结构Rowkey 行键列族(簇)包 含一组列,注:列族不能设置太多。时间戳:不同的版本,由近及远查询数据..
2022-03-17 11:02:41
147
原创 Zookeeper的作用及命令行操作
Zookeeper的作用及命令行操作Zookeeper是什么1、ZooKeeper由雅虎研究院开发,是Google Chubby的开源实现,后来托管到Apache,于2010年11月正式成为Apache的顶级项目。2、ZooKeeper是一个经典的分布式数据一致性解决方案(基于Paxos算法),致力于为分布式应用提供一个高性能、高可用,且具有严格顺序访问控制能力的分布式协调服务。3、Zookeeper的核心是原子广播,这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。
2022-01-17 16:01:45
1675
原创 MapReduce和Yarn技术原理
MapReduce和Yarn技术原理一、MapReduce概述MapReduce基于Google---MapReduce论文设计开发 基于函数式(mapper和reducer)编程的思想,用于大规模数据集(大于1TB) 的并行计算和离线计算, 特点:(1)函数式编程:程序员仅需描述做什么,具体怎么做交由系统的执行框架处理。(2)良好的扩展性:可通过添加节点以扩展集群能力。(3)高容错性:通过计算迁移或数据迁移等策略提高集群的可用性与容错性二、MapReduce工...
2022-01-17 15:58:51
1068
原创 02 HDFS 文件读写代码详解
core-site.xml hdfs-site.xml新建一个JAVA项目 在项目上添加jar包 添加你安装的hadoop目录下的hdfs-hadoop-share—common(lib )和hdfs(lib)(即common和hdfs下的所有jar包) 添加两个配置文件到项目 的src目 录下 ( 配置文件在 新建项目 添加jar包 username—client---hdfs-hadoop-share—common(lib )和hdfs(l...
2021-12-23 11:20:36
2733
原创 02HDFS分布式文系统
一、HDFS分布式文件系统概述Hdfs Hadoop Distrabuted File System 分布式文件系统分布式:二、HDFS特点:海量数据存储(GB,TB,PB级的数据)1MB=1024KB 1 GB=1024MB高容错性:默认保存副本(3个),当一份数据丢失时,可以恢复数据,hdfs内部机制实现的。数据冗余高延时不适合场景:低延时:不适合存放大量小文件多用户输入,不适合做任意修改。三、HDFS的基本架构由三部分组成(Client...
2021-12-22 20:05:55
1091
原创 01大数据概述
大数据概述大数据解决了什么问题:海量数据存储和海量数据分析数据量越来越大,海量数据的存储解决了数据的计算:分而治之Hdoop和大数据的关系大数据平台是:Apache开发的的分布式系统,是java 、语言写的,分布式平台,适合海量数据分布式存储和计算的平台总结:大数据是时代发展的产物,而Hadoop是一种处理大数据的技术手段。大数据4V特性规模性(Volume) 海量数据高速性(Velocity) 要求速度快多样性(Veriety)(数据多种多样,结构化数据(mysql s..
2021-12-21 16:42:55
894
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人