
hadoop
esc_ai
这个作者很懒,什么都没留下…
展开
-
hadoop helloworld(wordcount)
一、安装hadoop发现在mac上安装hadoop有更快捷的方法,首先安装homebrew,homebrew是一个包管理工具,安装hadoop命令如下:brew install hadoop默认会安装在/usr/local/Cellar目录下。该目录默认为隐藏的,可以打开finder,依次:菜单栏”前往”->”前往文件夹”,输入/usr/local/Cellar。快捷键command+shift+G原创 2016-03-04 20:56:41 · 1235 阅读 · 0 评论 -
MapReduce编程(七) 倒排索引构建
使用Lucene 6.0对文本进行中文分词,然后使用MapReduce构建倒排索引,统计文档频率和总的词项频率原创 2017-04-04 16:31:49 · 3624 阅读 · 0 评论 -
[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程
一机器环境二配置SSH免密码登录三安装Hadoop 2731下载Hadoop2运行Hadoop单机模式3 Hadoop伪分布式模式31修改hadoop-envsh32修改core-sitexml33修改mapred-sitexmltemplate34修改hdfs-sitexml4启动hadoop41格式化hdfs42启动Hadoop四安装Hbase 1241 Hbase下原创 2017-01-06 14:37:11 · 16689 阅读 · 4 评论 -
MapReduce编程实例
需求输入文件:文本文件 每行格式:<source> <destination> <time>3个部分由空格隔开其中source和destination为两个字符串,内部没有空格time为一个浮点数,代表时间(秒为单位)涵义:可以表示一次电话通话,或表示一次网站访问等输入可能有噪音: 如果一行不符合上述格式,应该被丢弃,程序需要正确执行 MapReduce计算:统计每对sourc原创 2016-05-04 16:42:00 · 2770 阅读 · 0 评论 -
MapReduce编程模型
MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型,由Google于2004年提出,谷歌关于云计算有三篇著名的论文:《Bigtable_A Distributed Storage System for Structured Data》《MapReduce: Simplied Data Processing on Large Clusters》...原创 2016-04-26 13:29:12 · 5055 阅读 · 0 评论 -
大数据基础之常用Linux命令
大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname进入多级文件夹:cd /usr/local/Cellar返回上层目录:cd ../返回上层的上层:cd ../../回到主文件夹cd2.ls命令ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情。 不带参数运行ls会列出文件和目录ls使用-l参原创 2016-11-20 18:03:09 · 6412 阅读 · 0 评论 -
MapReduce编程(六) 从HDFS导入数据到Elasticsearch
Elasticsearch for Hadoop安装以及如何从HDFS导入数据到Elasticsearch原创 2017-04-01 19:26:20 · 12803 阅读 · 7 评论 -
Spark机器学习环境搭建
一、Spark环境搭建1.1 下载Spark下载地址:http://spark.apache.org/downloads.html 下载完成后解压即可。 把spark的运行目录加到环境变量:#Spark Homeexport SPARK_HOME=/usr/local/Cellar/spark-2.1.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/原创 2017-10-11 12:03:35 · 4210 阅读 · 2 评论 -
HDFS文件读写流程
一、HDFS体系结构HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种: NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件(fsimage)和修改日志文件(edit log)。此外,NameNode还保存一个文件,用来存储数据块在数据节点的分布原创 2017-12-11 19:47:33 · 767 阅读 · 0 评论 -
[大数据]本地文件拷贝到hdfs
创建文件夹: hadoop fs -mkdir /work 拷贝: hadoop fs -put /Users/yp/Documents/test.txt /work 打开http://localhost:50070/: Utilities->browse the file system,可以看到新建的文件夹: 点击文件夹,就可以看到新上传的文件:原创 2016-03-30 10:27:40 · 11138 阅读 · 0 评论 -
MapReduce编程(五) 单表关联
MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。原创 2017-03-31 17:41:00 · 3522 阅读 · 0 评论 -
远程文件拷贝命令scp的用法
scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个:拷贝本机文件到远程服务器拷贝远程服务器上的文件到本地它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li原创 2016-11-25 14:20:34 · 2060 阅读 · 0 评论 -
MapReduce编程(四) 求均值
MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比原创 2017-03-31 13:28:34 · 2422 阅读 · 0 评论 -
MapReduce编程(一) Intellij Idea配置MapReduce编程环境
介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。原创 2017-03-30 20:37:22 · 30464 阅读 · 7 评论 -
MapReduce编程(三) 排序
MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下原创 2017-03-31 11:10:34 · 5657 阅读 · 1 评论 -
MapReduce编程(二) 文件合并和去重
MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。原创 2017-03-30 23:59:27 · 11216 阅读 · 0 评论 -
解决ES-Hadoop打包报错“Mkdirs failed to create /var/folders...”问题
一、报错问题在mac下运行ES-Hadoop项目,报错如下:Bee:eshadoop bee$ hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar /work/blog.jsonException in thread "main" java.io.IOException: Mkdirs failed to c...原创 2018-05-21 13:08:43 · 1993 阅读 · 0 评论