
Hadoop
junior19
abcde
展开
-
Hadoop日记1:初探linux、JDK、Hadoop2、Hello World
环境:Wmware 12.5.7、Ubuntu 16.04 LTS、java 1.8.0_144、Hadoop 2.7.4。今天在linux下尝试了hadoop的操作,首先是配置java环境,过程有点繁琐,好在linux可以直接在终端下载软件,期间配置环境变量时误删了profile下的一个词还找了很久错。然后是安装SSH,配置SSH的无密码登陆,这个具体用处暂时不懂。下一步就是安装Hadoop原创 2017-09-23 22:44:46 · 207 阅读 · 0 评论 -
安装Hadoop:CentOS-7配置Hadoop-3.0.0伪分布式安装
前言本文为作者的日记,因此默认读者会使用linux系统的基本命令如编辑及保存文件、打开文件夹、退出文件夹、新建及删除文件夹、显示文件内容等。工具VMware 12 pro(虚拟机软件) CentOS 7 Hadoop-3.0.0 jdk1.8.0 SecureCRT(用于登陆linux主机)安装及配置CentOS在VMware中点击文件-新建虚拟机,然后按提示进...原创 2018-03-08 16:40:52 · 2003 阅读 · 2 评论 -
Windows10下Eclipse搭建Hadoop3开发环境
前言由于笔记本配置限制,虚拟机CentOs-7关闭了图形界面,作者在Windows端编写mapreduce程序然后在linux上运行。工具windows 10 CentOs-7(已安装,见上一博文) eclipse-jee-oxygen-2-win32-x86_64.zip(采用其他精简版的eclipse可能会出问题) jdk1.8(请保证jdk位数跟计算机位数一致)...原创 2018-03-17 17:53:49 · 5190 阅读 · 3 评论 -
Python多线程爬虫实例
前言 大数据分析自然需要大量的数据,爬虫是获取数据的一种途径,Python是十分适合写爬虫的语言,Scrapy是Python的一个高级爬虫框架,那么学习Scrapy之前先简单实现一些爬虫例子,本文记录作者第一次实现爬虫。 未成年人请酌情阅读正文 首先当然要安装Python了,作者使用Python2.7.14,IDE使用PyCharm,需要准备的模块有requests、re、lxml(可以通过p原创 2018-04-03 17:46:04 · 17740 阅读 · 13 评论 -
大数据hadoop简答题
参考:《大数据技术原理与应用》——林子雨 人民邮电出版社分布式文件系统HDFS名称节点是什么? 名称节点负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块的映射关系,因此客户端只有访问名称节点才能找到请求的文件块所在位置。数据节点是什么? 数据节点负责数据的存储和读取,存储时,由名称节点分配存储位置,客户端到相应的数据节点写入数据;读取时,客户端从名称...原创 2018-05-28 21:47:16 · 17472 阅读 · 0 评论 -
Windows端Eclipse运行MapReduce实例
Windows的Eclipse已经连接到Linux的hadoop。 一.给两个文件去重 文件1:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x文件2:20150101 y20150102 y20150103 x20150104 z20150105 y目标输出文件:2015010...原创 2018-06-04 23:37:05 · 317 阅读 · 0 评论 -
tmp
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.*;public class upload{ /** * 判断路径是否存在 */ public static boolean test(Configuration conf, S...原创 2018-05-29 10:30:55 · 540 阅读 · 0 评论