
hadoop
文章平均质量分 78
shlhhy
这个作者很懒,什么都没留下…
展开
-
spark课程学习笔记
1.1 简介spark以RDD(弹性分布式数据集)为基本的数据结构,并定义了RDD相关的基本操作:Map、Filter、flatMap、groupByKey和Union等。spark第一次启动时需要把数据载入到内存,之后的中间结果保存在内存中,避免从硬盘进行读写,因此后期的迭代计算速度很快,速度是spark的最大优势。在任务(task)级别上,spark的并行机制是多线程模型,同一节点上的任务以多线程的方式运行在一个JVM进程中,可以带来更快的启动速度、更高的CPU利用率,以及更好的内存共享。spar原创 2021-10-13 13:46:13 · 183 阅读 · 0 评论 -
hadoop||spark||yarn运维
1. 简介hadoophadoop实现了一个分布式文件系统HDFS,框架核心设计:HDFS和MapReduce。sparkspark 是专为大规模数据处理而设计的快速通用的计算引擎,支持 Hadoop YARN。使用总结:hadoop提供分布式集群和分布式文件系统,spark使用hadoop的HDFS代替MapReduce进行大数据的计算处理。2. Hadoop安装...原创 2021-05-26 16:56:15 · 365 阅读 · 0 评论 -
hive 数据库
1. 本地导入csvcsv文件以逗号分割,当某个字段的格式为:“xxx, yyy, zzz"时,导入hive数据库可能发生错误,需要使用转义字符创建表,命令如下:create table customs_news(AAA STRING, BBB STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde’WITH SERDEPROPERTIES (“separatorChar” = “,”,“quoteChar” = “””,原创 2020-05-25 09:53:25 · 1135 阅读 · 0 评论 -
hdfs 操作
之前将数据文件存放在服务器本地,开启高可用时,代码运行结果保存的服务器位置不定,导致加载文件失败,考虑将文件存入HDFS进行访问。1. hdfs查看、创建目录查看目录hdfs dfs -ls /user创建新目录,此时user目录下生成了新文件夹,文件将被存放在此处。但是创建目录后发现该文件夹没有写入权限,需要hdfs用户提供权限修改。hdfs dfs -mkdir /user/word2vec2. python写入、读取hdfs安装hdfs包,采用如下代码上传from hdfs.cl原创 2020-10-12 17:31:53 · 147 阅读 · 0 评论 -
apache atlas 数据治理
1. 安装在安装完ambari平台后,可以在可添加服务中选择atlas安装,其它相关安装事项参见https://blog.youkuaiyun.com/g511266804/article/details/106489935/2. UI界面atlas提供了可视化的界面用于查询某一type下的所有实体、血缘关系等,如type为hive_table的实体共有123个,点击查找后,可以选择一个实体查看其定义信息、血缘关系等。血缘关系通常定义于process类别中。3. api调用atlas提供了丰富的api原创 2021-04-06 14:15:47 · 594 阅读 · 0 评论