大数据_qmys的博客-优快云博客

大数据

关注

大数据

关注数：文章数：26 文章阅读量：78842 文章收藏量：44

作者: qmys

这个作者很懒，什么都没留下…

展开

专栏收录文章

maven编译时出现：No compiler is provided in this environment. Perhaps you are running on a JRE rather than

10小时入门大数据（三）------分布式资源调度YARN一、YARN产生背景：MapReduce1.x存在问题：单点故障，节点压力大，不能支持除MapReduce之外的框架Hadoop1.x时：MapReduce:Master/Slaver架构，一个JobTracker带多个TaskTrackerJobTracker：负责资源管理和作业调度TaskTracker：定期向JT汇报本节...

原创 2018-09-21 08:17:04 · 773 阅读 · 0 评论
初次启动hive,解决 ls: cannot access /home/hadoop/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No su

刚刚安装好hive,进行第一次启动[hadoop@ltt1 bin]$ ./hivels: cannot access /home/hadoop/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No such file or directorywhich: no hbase in (/home/hadoop/hive110/bin:/h...

转载 2018-10-23 19:49:41 · 2040 阅读 · 0 评论
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable解决办法log4j日志中去除告警信息。在//usr/local/hadoop-2.5.2/etc/hadoop/log4j.properties...

原创 2018-11-18 16:00:21 · 345 阅读 · 0 评论
Hadoop----java API文件

java API操作HDFS文件通过Java API上传：文件 3 0 hdfs://hadoop000:8020/hdfsapi/test通过hdfs shell上传：文件 1 40762 hdfs://hadoop000:8020/install.log我们已经在hdfs-site.xml中设置了副本系数为1，但是当使用Java API上传，则副本系数为3，因为在本地并没有手工设置副本系...

原创 2018-09-20 19:44:48 · 386 阅读 · 0 评论
java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray

java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray解决办法1、下载对应版本的文件：https://github.com/steveloughran/winutils2、将hadoop.dll和winutils.exe文件复制/替换到C:\Wind...

原创 2018-11-19 17:05:51 · 669 阅读 · 0 评论
大数据之Linux基础（一）

原创 2018-09-29 20:14:55 · 319 阅读 · 0 评论
一个解析日志头部的开源工具

github地址：https://github.com/LeeKemp/UserAgentParserUserAgentParser userAgentParser = new UserAgentParser(); UserAgent agent = userAgentParser.parse(source);

原创 2018-09-24 09:17:02 · 324 阅读 · 0 评论
10小时入门大数据（五）------大数据框架—Flink与Beam

大数据框架—Flink与Beam

转载 2018-09-28 14:44:58 · 859 阅读 · 0 评论
大数据之Linux基础（）

原创 2018-09-29 20:20:15 · 491 阅读 · 0 评论
zookeeper单节点安装以及一些问题的解决办法

zookeeper单节点安装以及一些问题的解决办法#下载：http://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/解压后，把conf中的zoo_sample.cfg复制一份成为zoo.cfg，修改以下里面的内容：# The number of milliseconds of each ticktickTime=2000# The ...

原创 2018-11-13 16:44:13 · 918 阅读 · 0 评论
Resourcemanager启动失败解决方法

Resourcemanager启动失败解决方法[hadoop@hadoop001 sbin]$ ./start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-resourcemanager-hado...

原创 2018-11-21 22:19:13 · 12921 阅读 · 0 评论
10小时入门大数据（七）------初识Spark

初识Spark

转载 2018-09-27 22:17:09 · 333 阅读 · 0 评论
HDFS的优缺点

HDFS的优缺点HDFS的优点：1）数据冗余、硬件容错文件以block的方式，多副本存储在集群的节点上，保证硬件的容错，当某一机器损坏时，不至于数据丢失2）处理流式的数据访问流式：一次写入，多次读取的操作3）适合存储大文件4）可构建在廉价的机器上缺点：1）低延迟的数据访问数据大，想在秒级别做数据的检索不现实2）小文件索引不管数据在1M还是127M，都应该对应元数据存放在Na...

原创 2018-09-20 20:16:44 · 4983 阅读 · 0 评论
10小时入门大数据（）------Hadoops项目实战

10小时入门大数据（三）——分布式文件系统HDFS安装ssh遇到的问题：输入:sudo service sshd status 出现：openssh-deamon (pid 3025) is running 说明：ssh服务已正常运行...

原创 2018-09-23 15:13:42 · 2744 阅读 · 6 评论
搭建Hadoop环境

搭建Hadoop环境一、前序最近在搭建Hadoop环境时遇到一些问题，花费了我很长时间解决，初学的确是会遇到一些问题，现在记录我的安装过程以及我遇到的一些问题，希望能够供初学的小伙伴参考，少走弯路，如果有看到不对的地方，欢迎在下面评论指正。首先是要在Linux系统上安装，如果时windows操作系统，我使用的是使用虚拟机，在此是配置好的虚拟机下载的地址（百度网盘）链接：https://...

原创 2018-09-13 16:12:12 · 312 阅读 · 1 评论
10小时入门大数据（四）------分布式资源调度——YARN框架

分布式资源调度——YARN框架

转载 2018-09-24 23:12:31 · 317 阅读 · 0 评论
10小时入门大数据（五）------分布式计算框架MapReduce

分布式计算框架MapReduce

转载 2018-09-24 23:15:16 · 312 阅读 · 0 评论
intellij的maven工程"Server IPC version 9 cannot communicate with client version"错误的解决办法

转自：https://blog.youkuaiyun.com/wusuopuBUPT/article/details/51606860这个问题是java初始化hdfs client时出现的，原因是maven依赖的版本和hdfs的版本不一致。mvn的hadoop-core最高只有1.2.1版本，不能加这个配置，使用hadoop-common + hadoop-hdfs + hadoop-client的2...

转载 2018-09-19 21:57:22 · 612 阅读 · 0 评论
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFa)

报错：解决办法：1、在src/main/resources目录下创建log4j.properties内容：hadoop.root.logger=DEBUG, consolelog4j.rootLogger = DEBUG, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.cons...

原创 2018-09-19 22:35:29 · 8758 阅读 · 2 评论
解决办法：ssh: connect to host master port 22: Connection timed out

最近安装hadoop环境，遇到了一个问题，当我输入L:ssh localhost时，报了如下错误：ssh: connect to host master port 22: Connection timed out在网上找了很多解决办法，终于解决了，在此记录一下我的解决步骤： 1、查看ip地址：ifconfig 2、ping一下网络是否连接 3、使用sudo service iptables ...

原创 2018-09-14 20:14:24 · 35874 阅读 · 3 评论
10小时入门大数据（二）------初识Hadoop

10小时入门大数据（二）——初识Hadoop1、Hadoop介绍开源、分布式存储+分布式计算平台2、Hadoop能做什么搭建大型数据仓库、PB级数据存储、处理、分析、统计等搜索引擎、日志分析、商业智能、数据挖掘3、核心组件之分布式文件系统HDFS 特点：扩展性、容错性、海量数据存储将文件分成指定大小的数据块并以多副本的存储在多个机器上数据切分、多副本、容错等操作对...

原创 2018-09-15 10:41:50 · 1194 阅读 · 0 评论
hadoop 2.6遇到的DataNode无法启动问题

配置hadoop的环境变量步骤：

转载 2018-09-15 11:21:15 · 274 阅读 · 0 评论
hadoop中namenode无法启动

解决方案： 1）关闭hadoop，删除tmp下面的所有内容 2）./hadoop namenode -format重新格式化 3）重启hadoop

原创 2018-09-15 13:58:46 · 546 阅读 · 0 评论
hdfs下载copyToLocalFile报NullPointerException解决方法

报NullPointerException，可能是因为windows下系统环境变量引起，试验出两种解决方法：InputStream in = fs.open(new Path("/**.***"));FileOutputStream out = new FileOutputStream(new File("e:/**.***"));IOUtils.copyBytes(in, out, 2...

原创 2018-09-20 15:25:50 · 496 阅读 · 0 评论
10小时入门大数据（三）------分布式文件系统HDFS

10小时入门大数据（三）——分布式文件系统HDFS安装ssh遇到的问题： 1、输入:sudo service sshd status 出现：openssh-deamon (pid 3025) is running 说明：ssh服务已正常运行 2、java配置环境变量：...

原创 2018-09-20 19:45:42 · 581 阅读 · 0 评论
10小时入门大数据（一）------大数据概述

1、环境参数Linux—CentOS(6.4) Hadoop—CDH(5.7) 开发工具：IDEA 2、大数据生态圈 Hadoop

原创 2018-09-10 12:32:49 · 1464 阅读 · 0 评论

大数据

作者: qmys

maven编译时出现：No compiler is provided in this environment. Perhaps you are running on a JRE rather than

初次启动hive,解决 ls: cannot access /home/hadoop/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No su

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin

Hadoop----java API文件

java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray

大数据之Linux基础（一）

一个解析日志头部的开源工具

10小时入门大数据（五）------大数据框架—Flink与Beam

大数据之Linux基础（）

zookeeper单节点安装以及一些问题的解决办法

Resourcemanager启动失败解决方法

10小时入门大数据（七）------初识Spark

HDFS的优缺点

10小时入门大数据（）------Hadoops项目实战

搭建Hadoop环境

10小时入门大数据（四）------分布式资源调度——YARN框架

10小时入门大数据（五）------分布式计算框架MapReduce

intellij的maven工程"Server IPC version 9 cannot communicate with client version"错误的解决办法

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFa)

解决办法：ssh: connect to host master port 22: Connection timed out

10小时入门大数据（二）------初识Hadoop

hadoop 2.6遇到的DataNode无法启动问题

hadoop中namenode无法启动

hdfs下载copyToLocalFile报NullPointerException解决方法

10小时入门大数据（三）------分布式文件系统HDFS

10小时入门大数据（一）------大数据概述