hadoop
dayaoK
开发小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop 平台搭建 ssh 免密问题
这些是我在搭建hadoop平台时遇到的问题 1.satrt-all.sh报错 需要配置免密登录 ssh-keygen 一直回车 然后将密匙分配到 ssh-copy-id root@(ip地址)中, ssh (ip地址) yes→密码 下一次就可以免密登录了...原创 2018-09-27 16:53:58 · 322 阅读 · 0 评论 -
Hadoop 平台搭建完整步骤
Hadoop 平台搭建完整步骤 环境准备 也可以用VMware. 创建三台虚拟机 hd-master、hd-node1、hd-node2 三台虚拟机服务器中的主机名(hostname)分别更改为master、node1、node2。 创建好虚拟机之后 (1) 我们为了能够更加方便来识别主机,我们使用主机名而不是使用IP地址,以免多处配置带来更多的麻烦。把hd-master、hd-n...原创 2018-09-28 15:44:53 · 16935 阅读 · 4 评论 -
调用Hadoop API 解压缩文件,对压缩格式进行对比
package com.bigdata.hdfs.compress; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.io.compress.*; import org.apache.hadoop.util.ReflectionU...原创 2019-03-25 10:19:50 · 440 阅读 · 0 评论 -
hadoop 序列化文件
对文件进行序列化操作 package com.bigdata.hdfs.SeqFile; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWr...原创 2019-04-11 09:43:08 · 671 阅读 · 0 评论 -
大数据的特点
大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,再列举一些常见的: 文件存储:hadoop HDF...原创 2019-04-11 13:30:23 · 484 阅读 · 0 评论 -
大数据开发初学者学习路线
目录 前言 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第十章:牛逼高大上的机器学习 目录 最近看到一篇很不错的文章,献给正在学习大数据的你我他。如果能答...转载 2019-04-12 09:12:23 · 361 阅读 · 0 评论 -
Hive 创建表和使用jdbc连接教程 Hive命令
hive中表 ------------------- 1.managed table 托管表。 删除表时,数据也删除了。 2.external table 外部表。 删除表时,数据不删。 hive命令 ---------------- //创建表,external 外部表 $hive>CREATE ...原创 2019-04-14 14:47:08 · 1772 阅读 · 0 评论
分享