
大数据
zerone-f
这个作者很懒,什么都没留下…
展开
-
ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user '
在使用Sqoop将数据从Hive导入MySQL过程中,出现一下错误Warning: /usr/local/sqoop/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /usr/local/sqoop...原创 2018-04-08 17:39:22 · 13237 阅读 · 5 评论 -
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)暂时解决方案
使用Sqoop将数据从Hive导入MySQL后启动mysql就出现无法登陆的问题,在参考了很多资料后依然没有完整的解决,现在将自己的暂时的解决方案做一个记录。输入mysql -u root -p后就出现一下提示root@xxxx-Inspiron-5555:/home/hadoop# mysql -u root -pEnter password: ERROR 1045 (28000): Acces...原创 2018-04-08 20:14:40 · 613 阅读 · 0 评论 -
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)最终解决方案
在上一篇博文中,写了关于怎么解决ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES问题的暂时解决方法,当时是弄了很久没有弄出来,所以没有先暂时跳过密码验证完成了了数据库的查询,今天来说说自己是怎么具体解决这个问题的。首先出现这个问题是密码出了问题,我们需要跳过密码验证进入mysql进行...原创 2018-04-10 15:23:53 · 76854 阅读 · 11 评论 -
MapReduce中的WordCount实例调试
在调试的过程中可能会遇到各种问题,自己也是第一次接触MapReduce,调试起来遇到了很多困难,现在总结一些这些问题首先要先了解一下HDFS中的常用的命令 -mkdir 在HDFS创建目录 hdfs dfs -mkdir /data -ls 查看当前目录 hdfs dfs -ls / -ls -R ...原创 2018-04-06 02:00:41 · 572 阅读 · 0 评论 -
docker 从阿里云镜像仓库拉取Ubuntu镜像
打开docker,打开后会在任务栏看到切换为打开windows powershell用这条命令登陆阿里云docker login --username=mqmw147@163.com registry.cn-hangzhou.aliyuncs.com登录registry的用户名是您的阿里云账号全名,密码是您开通服务时设置的密码。你可以在镜像管理首页点击右上角按钮修改docker login密码。用...原创 2018-05-03 12:50:21 · 7396 阅读 · 0 评论 -
Linux下Redis的安装和部署
转载地址:https://www.cnblogs.com/zhaoyan001/p/6143170.html一、Redis介绍Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。这些数据类型都支持push/...转载 2018-07-18 15:33:14 · 171 阅读 · 0 评论 -
hadoop命令大全
转载地址:https://blog.youkuaiyun.com/m0_38003171/article/details/79086780hdfs常用命令:第一部分:hdfs文件系统命令第一类:文件路径增删改查系列:hdfs dfs -mkdir dir 创建文件夹hdfs dfs -rmr dir 删除文件夹dirhdfs dfs -ls 查看目录文件信息hdfs dfs ...转载 2018-07-20 16:29:42 · 520 阅读 · 0 评论 -
5类系统推荐算法,非常好使,非常全
转载地址:https://blog.youkuaiyun.com/u010670689/article/details/71513133 序言 最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的: 而对于刚接触这个领域的我来说,是这样的: 在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的...转载 2018-07-31 12:43:50 · 404 阅读 · 0 评论 -
docker搭建大数据集群
从0开始使用Docker搭建Spark集群https://www.jianshu.com/p/ee210190224fDocker下安装Hadoop和Spark集群https://blog.youkuaiyun.com/havefun00/article/details/78933723在Docker下搭建Spark+HDFS集群https://blog.youkuaiyun.com/sinat_25...转载 2018-09-08 17:43:55 · 1523 阅读 · 0 评论 -
Ubuntu16.04使用docker搭建大数据环境
参考官方官方文档一、卸载旧版本的docker 较旧版本的Docker被称为docker或docker-engine。如果已安装,请卸载它们:$ sudo apt-get remove docker docker-engine docker.io二、安装Docker CE使用存储库安装在新主机上首次安装Docker CE之前,需要设置Docker存...原创 2018-09-12 18:19:10 · 536 阅读 · 0 评论 -
Linux shell编程基础
一、linux常用命令 1.修改机器名称(实质上是机器的域名,相当于www.baidu.com):vim /etc/hostname 2.关闭机器:shutdown -h now 或者 reboot -h now来直接重启 3.查看ip地址:ifconfig 4.通过vim /etc/hosts修改域名和ip的映射关系:192.186.0.104 Master,...原创 2018-10-01 12:21:02 · 233 阅读 · 0 评论 -
解决HDFS和spark-shell启动的警告:Unable to load native-hadoop library for your platform... using builtin-java
一、问题在启动hadoop和spark-shell的时候会有警告:start-dfs.sh2018-10-03 09:43:31,795 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic...原创 2018-10-03 10:15:41 · 44530 阅读 · 6 评论 -
Java NIO操作
内容:Java NIO Java NIO介绍 Java NIO缓存区 通道和内存映射 文件锁 Selecto一、Java NIO介绍 1.Java传统的IO是面向Stream-Oriented,而NIO是面向Block-Oriented,也就是说NIO的操作正常情况下是相对比较大的Block快为单位的,而不是像Java IO一样是针对字节...原创 2018-10-03 14:36:48 · 312 阅读 · 0 评论 -
Java多线程编程
Java多线程编程 1.多线程涉及在并发的情况下对多核等硬件潜力更有效的使用,且人们对程序的处理速度要求不断提升,因此多线程编程几乎成为了绝大多数程序的基本特征,生产环境下一定会使用多线程; 2.Java中main方法是运行在主线程中的! 3.创建和使用线程的两种方式:直接覆写Thread的run方法以及传入Runnable接口对象给Thread的构造器 ...原创 2018-10-03 16:46:21 · 223 阅读 · 0 评论 -
Java网络编程
Java网络编程 1.一台JVM和另外一台JVM通信就要采用网络编程,此时必须知道要通信的JVM的IP地址和端口; 2.Java的网络编程提供了TCP和UDP两种方式其中TCP基于“三次握手”的方式建立起可靠的网络传输协议,UDP并不一定保证发送出去的数据会被接收到,网络上的聊天工具一般都会采用UDP;TCP更安全,UDP速度快; 3.基于TCP的网络的编程,主要是基于So...原创 2018-10-03 18:06:30 · 159 阅读 · 0 评论 -
Java集合编程
1.在实际企业生产环境下编程,我们通常是用数据结构来封装具体的,代码是直接操作数据结构来完成具体的业务功能; 2.Java中提供的众多的数据结构具体就表现为Java的集合,例如List、Set、Collection、Map、Iterator、Queue等都是Java中至关重要的内容; 3.大数据中到处可见集合的使用,因为大数据处理的是数据集! 4.LinkedLi...原创 2018-10-03 21:02:32 · 644 阅读 · 0 评论 -
Java集合Map
几种常用的Map:HashMap、TreeMap、WeakHashMap、IdentityHashMap、LinkedHashMap Map--将键映射到值的对象。一个映射不能包含重复的键;每个键最多只能映射到一个值。 HashMap---无序:基于哈希表的 Map 接口的实现。此实现提供所有可选的映射操作,并允许使用 null 值和 null 键。 TreeMa...原创 2018-10-03 23:08:36 · 142 阅读 · 0 评论 -
Java泛型编程
1.所谓泛型(Grenerics)是指在对象建立的时候不指定具体的类型而是在申明和实例化对象的时候指定具体的类型; 2.需要泛型最重的因素有两点:第一,包容各种类型的变化,第二,框架基于泛型能够“容易”,例如hadoop和Spark都大量使用了泛型 3.泛型类: public class JavaGenerics { public sta...原创 2018-10-04 00:16:50 · 1265 阅读 · 0 评论 -
Java的JVM虚拟机
1.JVM就是Java的OS,Java是通过JVM来访问硬件的(其实JVM首先访问底层OS,例如linux的功能,透过底层OS来访问硬件); 2.JVM概览 3.Class Loader将class加载到Runtime Data Areas,Execution Engine会完成Byte Code的解释或者编译,最终转换为机器码执行; 4.Java在默...原创 2018-10-04 10:15:19 · 190 阅读 · 0 评论 -
maven项目管理
1.实际项目工程是由不同独立的模块构成的,模块与模块这间需要完成协调工作才能够最终完成功能,这就必然涉及模块之间的依赖关系,当以来管理复杂的时候就会非常难于管理,此时maven就是为了管理模块之间的依赖而生的。 2.常见的具体的pom.xml的内容写法:http://search.maven.org 3. <dependency> ...原创 2018-10-04 11:43:22 · 164 阅读 · 0 评论 -
第37课:Task执行内幕与结果处理解密
Task执行原理流程图 1.当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend发送LaunchTask之后,CoarseGrainedExecutorBackend在收到LaunchTask消息后,首先会反序列化TaskDescription: val taskDesc = ser.dese...原创 2018-10-04 22:25:06 · 274 阅读 · 0 评论 -
Hadoop基础
Hadoop生态系统解析与实际运用 1.Hadoop是一个适合分布式海量数据存储和处理的大数据存储和计算引擎; 2.Hadoop核心包含三大部分: a)HDFS:高效、可靠、低成本的分布式数据存储首选方案; b)MapReduce:Hadoop的分布式计算模型,基于该模型产生了很多Hadoop适合于基本场景的计算框架,例如Hive、Mahout等,但还...原创 2018-10-05 14:31:06 · 222 阅读 · 0 评论 -
Hadoop WordCount示例及源码解析
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp...原创 2018-10-05 14:34:38 · 1668 阅读 · 0 评论 -
Hadoop的HDFS命令
HDFS用户命令指南HDFS文件系统Shell命令 Hadoop的三种命令形式 hadoop fs ---适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 hadoop dfs---只能适用于HDFS文件系统 hdfs dfs---跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统 1.HDFS上存储的文件是以Bl...原创 2018-10-05 17:37:42 · 252 阅读 · 0 评论 -
Hadoop基于Yarn的MapReduce架构
基于Yarn的MapReduce架构 1.MapReduce程序是基于Mapper和Reducer两大阶段构成的,其中Mapper是把一个计算任务分成很多小任务进行并行计算,Reducer是做最后的统计工作的; 2.Hadoop2.x开始MapReduce的运行是基于Yarn进行的: 3.当ResourceManager接受到Client提交程序的请求的时...原创 2018-10-05 21:19:21 · 338 阅读 · 0 评论 -
用Hadoop的MapReduce气象数据编程
一:数据格式分析 1.数据(下载地址:ftp://ftp.ncdc.noaa.gov/pub/data/noaa) 0067011990999991950051507004888888889999999N9+00001+9999999999999999999999 0067011990999991950051512004888888889999999N9+00221+99...原创 2018-10-06 00:41:11 · 2843 阅读 · 3 评论 -
使用Hadoop的MapReduce来实现数据去重
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Tex...原创 2018-10-06 15:48:42 · 1597 阅读 · 0 评论 -
使用Hadoop的MapReduce实现数据排序
最近想系统学习大数据知识,在观看视频编写代码的时候,在数据排序的时候,出现了一些问题,一致于弄了好久才找到原因,现在记录下来,方便查看数据输入格式:按照我的代码逻辑,应该输出数据为在代码处理时,计算结果却是没有输出输入的数据,而是输出最后保存在HDFS上的数据只是1 12 23 34 45 56 67 7...原创 2018-10-06 16:20:33 · 15497 阅读 · 4 评论 -
Hive分析搜索引擎的数据
最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据格式:(数据可以点击:用户查询日志(SogouQ)下载搜狗实验室的数据,可以根据自己的需要选择数据规模)00:00:00 2982199073774412 [360安全卫士] 8 3 download.it.com.cn/softweb/software/firewall/antiviru...原创 2018-10-13 11:47:23 · 1738 阅读 · 0 评论 -
用Hadoop的MapReduce求平均值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io....原创 2018-10-06 18:52:02 · 1226 阅读 · 0 评论 -
用Hadoop的MapReduce求最大最小值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 找出数据中的最大值和最小值输入数据格式: 4568 2 6598 2222222 8899 3 7 9 1 0 56 96 564 145 231 8899 889...原创 2018-10-06 18:56:59 · 6942 阅读 · 1 评论 -
用Hadoop中MapReduce进行TopN排序
数据格式:10,3333,10,10011,9321,1000,29312,3881,701,2013,6974,910,3014,8888,11,39订单ID 用户ID 资费 业务ID在所有订单数据中计算出资费最高的N个订单,按降序排列算法思想:在大量的数据中计算出资费最高的N个订单,为了节省资源和提高计算效率:在众多的Mapper的端,首先计算出自己的TopN,然后在...原创 2018-10-06 22:02:19 · 2757 阅读 · 0 评论 -
用Hadoop的MapReduce计算框架实战URL流量分析
输入的数据格式:123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...原创 2018-10-06 23:42:49 · 872 阅读 · 0 评论 -
Hive分析电商数据
最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据可以到这里下载:链接: https://pan.baidu.com/s/1RAoicaE7uygtUpdwE-ACtg 提取码: ysrm数据格式:tbDate.txt2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,1...原创 2018-10-13 16:00:33 · 3792 阅读 · 3 评论 -
解决Hive的Establishing SSL connection without server's identity verification is not recommended问题
问题描述:hive> Sat Oct 13 15:36:32 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SS...原创 2018-10-13 16:15:45 · 2445 阅读 · 0 评论 -
用Hadoop的MapReduce处理员工信息Join操作
在进行处理员工信息Join编程时,遇到了一点问题,我想先不纠结这个问题了,到后面有时间在慢慢来看这个问题吧输入的数据格式worker.txt empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 ...原创 2018-10-07 10:56:35 · 587 阅读 · 0 评论 -
Hadoop Join性能优化
为什么要优化?数据格式address.txt1 America2 China3 Germennumber.txt1 Spark 12 Hadoop 13 Flink 24 Kafka 35 Tachyon 2输出格式:发现程序运行的时候总是没法把结果写到HDFS上,有问...原创 2018-10-07 22:38:15 · 269 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之算法解析
MapReduce二次排序的原理 1.在Mapper阶段,会通过inputFormat的getSplits来把数据集分割成splitpublic abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...原创 2018-10-08 09:47:05 · 433 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之实现
转自:一起学Hadoop——二次排序算法的实现二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年的高高气温,key为年份,value为最高气温,年...转载 2018-10-08 16:16:59 · 1576 阅读 · 1 评论 -
hadoop MapReduce自连接算法实现
HHadoop的MapRedcuer自连接实现,找出每个child的grandprent,如Tom是Lucy的child,Lucy是Mary的child,那么Mary是Tom 的grandparent。输入数据:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Je...原创 2018-10-09 18:06:31 · 1083 阅读 · 0 评论