
hadoop
zerone-f
这个作者很懒,什么都没留下…
展开
-
厦门大学林子雨老师大数据hadoop操作笔记
按照老师的教程陪着好hadoop后1、启动hadoop start-dfs.sh 2.关闭hadoop stop-dfs.sh 3.运行 Hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。在实际开发应用程序时,可考虑在程序中加上如下代码,能在每次运行...原创 2018-03-20 22:16:34 · 6489 阅读 · 0 评论 -
用Hadoop的MapReduce求平均值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io....原创 2018-10-06 18:52:02 · 1226 阅读 · 0 评论 -
用Hadoop的MapReduce求最大最小值
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 找出数据中的最大值和最小值输入数据格式: 4568 2 6598 2222222 8899 3 7 9 1 0 56 96 564 145 231 8899 889...原创 2018-10-06 18:56:59 · 6942 阅读 · 1 评论 -
用Hadoop中MapReduce进行TopN排序
数据格式:10,3333,10,10011,9321,1000,29312,3881,701,2013,6974,910,3014,8888,11,39订单ID 用户ID 资费 业务ID在所有订单数据中计算出资费最高的N个订单,按降序排列算法思想:在大量的数据中计算出资费最高的N个订单,为了节省资源和提高计算效率:在众多的Mapper的端,首先计算出自己的TopN,然后在...原创 2018-10-06 22:02:19 · 2757 阅读 · 0 评论 -
用Hadoop的MapReduce计算框架实战URL流量分析
输入的数据格式:123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.j...原创 2018-10-06 23:42:49 · 872 阅读 · 0 评论 -
Hive分析电商数据
最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据可以到这里下载:链接: https://pan.baidu.com/s/1RAoicaE7uygtUpdwE-ACtg 提取码: ysrm数据格式:tbDate.txt2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,1...原创 2018-10-13 16:00:33 · 3792 阅读 · 3 评论 -
解决Hive的Establishing SSL connection without server's identity verification is not recommended问题
问题描述:hive> Sat Oct 13 15:36:32 CST 2018 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SS...原创 2018-10-13 16:15:45 · 2445 阅读 · 0 评论 -
用Hadoop的MapReduce处理员工信息Join操作
在进行处理员工信息Join编程时,遇到了一点问题,我想先不纠结这个问题了,到后面有时间在慢慢来看这个问题吧输入的数据格式worker.txt empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 ...原创 2018-10-07 10:56:35 · 587 阅读 · 0 评论 -
Hadoop Join性能优化
为什么要优化?数据格式address.txt1 America2 China3 Germennumber.txt1 Spark 12 Hadoop 13 Flink 24 Kafka 35 Tachyon 2输出格式:发现程序运行的时候总是没法把结果写到HDFS上,有问...原创 2018-10-07 22:38:15 · 269 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之算法解析
MapReduce二次排序的原理 1.在Mapper阶段,会通过inputFormat的getSplits来把数据集分割成splitpublic abstract class InputFormat<K, V> { public InputFormat() {} public abstract List<InputSplit> getSplits(...原创 2018-10-08 09:47:05 · 433 阅读 · 0 评论 -
Hadoop MapReduce二次排序算法与实现之实现
转自:一起学Hadoop——二次排序算法的实现二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年的高高气温,key为年份,value为最高气温,年...转载 2018-10-08 16:16:59 · 1576 阅读 · 1 评论 -
hadoop MapReduce自连接算法实现
HHadoop的MapRedcuer自连接实现,找出每个child的grandprent,如Tom是Lucy的child,Lucy是Mary的child,那么Mary是Tom 的grandparent。输入数据:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Je...原创 2018-10-09 18:06:31 · 1083 阅读 · 0 评论 -
hadoop MapReduce倒排索引编程
统计每个单词在每个文件中出现的次数输入数据:file1.txtSpark is so powerfulfile2.txtSpark is the most exciting thing happening in big data todayfile3.txtHello Spark Hello again Spark输出格式:代码实现:import or...原创 2018-10-10 00:45:54 · 524 阅读 · 0 评论 -
Hadoop MapReduce多维排序
在实际的编程过程中,经常遇到需要对数据进行多维度的排序。数据数据:Spark 100Hadoop 60Kafka 95Spark 99Hadoop 65Kafka 98Spark 99Hadoop 63Kafka 97要求,对key和同一组的value也进行排序输出数据:编程示例:import org.apache.hadoop.conf.Configur...原创 2018-10-10 11:42:30 · 266 阅读 · 0 评论 -
Hadoop链式的MapReduce编程
通过多个Mapper过滤出符合要求的数据输入数据:computer 5000SmartPhone 3000Tablet 15000TV 5000Book 18Clothes 150Gloves 9SmartPhone 3000Tablet 1500computer 5000SmartPhone 3000...原创 2018-10-10 15:23:06 · 372 阅读 · 0 评论 -
解决在命令行中出现/usr/local/hadoop/libexec/hadoop-functions.sh: 行 1185: dirname: 未找到命令
问题描述:在部署了hadoop后,进入到终端和输入source ~/.bashrc后出现hadoop已经安装了很久了,都没有遇到这样的问题 ,突然出现,有点猝不及防。问题分析与排查:1.出现这个问题的时候,我第一反应是我自己在配置其他软件的环境变量的时候修改了配置文件,在不注意的情况下输入了其他的字符,导致文件的中的变量有所变化,但是我打开环境变量的配置文件的时候,没有检查到...原创 2019-02-22 19:43:52 · 16968 阅读 · 5 评论 -
Hive分析搜索引擎的数据
最近学习Hive的基本使用,下面就记录一下我学习Hive的一些基本语句数据格式:(数据可以点击:用户查询日志(SogouQ)下载搜狗实验室的数据,可以根据自己的需要选择数据规模)00:00:00 2982199073774412 [360安全卫士] 8 3 download.it.com.cn/softweb/software/firewall/antiviru...原创 2018-10-13 11:47:23 · 1738 阅读 · 0 评论 -
使用Hadoop的MapReduce实现数据排序
最近想系统学习大数据知识,在观看视频编写代码的时候,在数据排序的时候,出现了一些问题,一致于弄了好久才找到原因,现在记录下来,方便查看数据输入格式:按照我的代码逻辑,应该输出数据为在代码处理时,计算结果却是没有输出输入的数据,而是输出最后保存在HDFS上的数据只是1 12 23 34 45 56 67 7...原创 2018-10-06 16:20:33 · 15497 阅读 · 4 评论 -
使用Hadoop的MapReduce来实现数据去重
最近在系统学习大数据知识,学了没有记录过几天又忘光了,所以把学习内容记录下来,方便以后查看 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Tex...原创 2018-10-06 15:48:42 · 1597 阅读 · 0 评论 -
ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user '
在使用Sqoop将数据从Hive导入MySQL过程中,出现一下错误Warning: /usr/local/sqoop/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /usr/local/sqoop...原创 2018-04-08 17:39:22 · 13237 阅读 · 5 评论 -
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)暂时解决方案
使用Sqoop将数据从Hive导入MySQL后启动mysql就出现无法登陆的问题,在参考了很多资料后依然没有完整的解决,现在将自己的暂时的解决方案做一个记录。输入mysql -u root -p后就出现一下提示root@xxxx-Inspiron-5555:/home/hadoop# mysql -u root -pEnter password: ERROR 1045 (28000): Acces...原创 2018-04-08 20:14:40 · 613 阅读 · 0 评论 -
hadoop启动过程中出现Error: JAVA_HOME is not set and could not be found.解决办法
安装好hadoop后,启动终端和启动hadoop时出现Error: JAVA_HOME is not set and could not be found.错误需要修改hadoop目录下的/etc/hadoop/hadoop-env.sh文件。用vim hadoop-env.sh打开文件找到JAVA_HOME=${JAVA-HOME}修改为自己的java安装路径,保存就可以了现在启动hadoop就...原创 2018-04-04 18:42:38 · 16572 阅读 · 0 评论 -
MapReduce中的WordCount实例调试
在调试的过程中可能会遇到各种问题,自己也是第一次接触MapReduce,调试起来遇到了很多困难,现在总结一些这些问题首先要先了解一下HDFS中的常用的命令 -mkdir 在HDFS创建目录 hdfs dfs -mkdir /data -ls 查看当前目录 hdfs dfs -ls / -ls -R ...原创 2018-04-06 02:00:41 · 572 阅读 · 0 评论 -
使用ssh免密码登陆
sudo vi /etc/ssh/sshd_config找到PermitRootLogin prohibit-password一行,改为PermitRootLogin yescd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhostssh-keygen -t rsa # 会有提示,都按回车就可以cat ./id_...原创 2018-05-06 00:30:04 · 3096 阅读 · 0 评论 -
wind10下idea连接docker 容器里的伪分布hadoop
如何连接docker容器里面的hadoop,首先必须清楚你的hadoop配着文件,否则,问题出的摸不到头脑。首先,我将本地端口9000映射到docker容器中,hdfs就是通过9000这个端口和宿主机交互,当然,如果你好需要用到其他端口也可以一同映射出去。启动一个容器docker run -d -it -p 9000:9000 --name hadoop [镜像id]-p 9000:9000 ...原创 2018-06-09 18:13:47 · 1995 阅读 · 3 评论 -
hadoop命令大全
转载地址:https://blog.youkuaiyun.com/m0_38003171/article/details/79086780hdfs常用命令:第一部分:hdfs文件系统命令第一类:文件路径增删改查系列:hdfs dfs -mkdir dir 创建文件夹hdfs dfs -rmr dir 删除文件夹dirhdfs dfs -ls 查看目录文件信息hdfs dfs ...转载 2018-07-20 16:29:42 · 520 阅读 · 0 评论 -
解决HDFS和spark-shell启动的警告:Unable to load native-hadoop library for your platform... using builtin-java
一、问题在启动hadoop和spark-shell的时候会有警告:start-dfs.sh2018-10-03 09:43:31,795 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic...原创 2018-10-03 10:15:41 · 44530 阅读 · 6 评论 -
maven项目管理
1.实际项目工程是由不同独立的模块构成的,模块与模块这间需要完成协调工作才能够最终完成功能,这就必然涉及模块之间的依赖关系,当以来管理复杂的时候就会非常难于管理,此时maven就是为了管理模块之间的依赖而生的。 2.常见的具体的pom.xml的内容写法:http://search.maven.org 3. <dependency> ...原创 2018-10-04 11:43:22 · 164 阅读 · 0 评论 -
第36课:TaskScheduler内幕天机解密
内容:TaskScheduler与SchedulerBackendFIFO与FAIR两种调度模式Task数据本地性资源分配网上笔记详细笔记:[Spark内核] 第36课:TaskScheduler内幕天机解密:Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等TaskScheduler...原创 2018-10-04 22:36:00 · 226 阅读 · 0 评论 -
Hadoop基础
Hadoop生态系统解析与实际运用 1.Hadoop是一个适合分布式海量数据存储和处理的大数据存储和计算引擎; 2.Hadoop核心包含三大部分: a)HDFS:高效、可靠、低成本的分布式数据存储首选方案; b)MapReduce:Hadoop的分布式计算模型,基于该模型产生了很多Hadoop适合于基本场景的计算框架,例如Hive、Mahout等,但还...原创 2018-10-05 14:31:06 · 222 阅读 · 0 评论 -
Hadoop WordCount示例及源码解析
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp...原创 2018-10-05 14:34:38 · 1668 阅读 · 0 评论 -
Hadoop的HDFS命令
HDFS用户命令指南HDFS文件系统Shell命令 Hadoop的三种命令形式 hadoop fs ---适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 hadoop dfs---只能适用于HDFS文件系统 hdfs dfs---跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统 1.HDFS上存储的文件是以Bl...原创 2018-10-05 17:37:42 · 252 阅读 · 0 评论 -
Hadoop基于Yarn的MapReduce架构
基于Yarn的MapReduce架构 1.MapReduce程序是基于Mapper和Reducer两大阶段构成的,其中Mapper是把一个计算任务分成很多小任务进行并行计算,Reducer是做最后的统计工作的; 2.Hadoop2.x开始MapReduce的运行是基于Yarn进行的: 3.当ResourceManager接受到Client提交程序的请求的时...原创 2018-10-05 21:19:21 · 338 阅读 · 0 评论 -
用Hadoop的MapReduce气象数据编程
一:数据格式分析 1.数据(下载地址:ftp://ftp.ncdc.noaa.gov/pub/data/noaa) 0067011990999991950051507004888888889999999N9+00001+9999999999999999999999 0067011990999991950051512004888888889999999N9+00221+99...原创 2018-10-06 00:41:11 · 2843 阅读 · 3 评论 -
90.Spark大型电商项目-页面单跳转化率-需求分析、技术方案设计、数据表设计
目录内容简介需求分析数据方案设计数据表设计数据展示本篇文章记录页面单跳转化率-需求分析、技术方案设计、数据表设计。内容简介业务:页面单跳转化率业务,实现思路 页面单跳切片生成以及页面流匹配的算法需求分析基础数据是什么?还是咱们的用户访问session分析模块基于的基础数据;用户购买支付统计模块;基础数据是通用的;它里面就包含了网站 / app,每...原创 2019-03-30 16:31:05 · 337 阅读 · 0 评论