
大数据
文章平均质量分 57
Jin__nan
这个作者很懒,什么都没留下…
展开
-
Hadoop分布式集群搭建
Hadoop分布式集群搭建环境Windows下的VMware虚拟机,用cnetos搭建三台hadoop分布式集群下载包1、创建hadoop用户 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop 给用户添加密码 2、修改网络信息(静态ip)修改hosts文件,...原创 2018-04-21 19:51:34 · 297 阅读 · 0 评论 -
Zookeeper机制和应用场景
Zookeeper简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等等。Zookeeper就是用来做第三方的,起作用只有俩个。 1、管理(存储、读取)用户提交的数据。 2、并为数据提供监听功能。(监听服务器是有正常)Zookee...原创 2018-07-14 12:01:23 · 432 阅读 · 0 评论 -
CM&CDH安装
笔者当时自己装CM&CDH看了不下10篇博客,重装集群不下3次,后来快照这个功能深深的刻在了我的心里。这篇博客笔者呕心沥血啊。。。不过还是会有同学会挂掉,所以希望大家做到那里一步记得快照。。。。 发一下牢骚。。。 CM&CDH安装需要的准备事项:1、Cloudera Manager安装包(rpm包) 2、CDH的安装包 3、集群 就这俩个,有的博客还介绍到要用到m...原创 2018-07-14 09:13:43 · 3442 阅读 · 1 评论 -
Linux后台运行程序
在我们平常的时候运行程序的时候会产生很多的信息,这些信息有时候有用,有时候没用,不过这些数据都会在该程序的log中保存,所以把这些信息放在前台就不是很好。我们可以将脚本放在后台运行,不要将这些信息显示出来。将shell放入后台运行比如:脚本名称:storm.sh后台运行: storm.sh &这样就会放入后台运行不占用前台的使用,他会返回给你一个进程号查看进程的时候...原创 2018-07-23 10:14:24 · 353 阅读 · 0 评论 -
利用视图进行多表关联
疑问在大数据中我们关联的码表大于8个,然后数据存储量大于500W,那么在进行hive清洗的时候极有可能会被卡死。可是我们就是要在一张表上关联10多个表,比如一张表中的很多字段都要关联码表,因为其有对应的翻译字段。那我们改怎么办呢?只能将他分成俩次进行关联。难不成我们要重新创建一个中间表就是为了关联一下么?卧槽,这也太操蛋了吧。答案答案流程 1、面对这样的问题的时候s...原创 2018-07-10 21:46:15 · 10712 阅读 · 0 评论 -
sqoop安装
sqoop安装安装sqoop的前提是已经具备java和hadoop的环境 1、下载并解压 最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配置文件$ cd /usr/local/sqoop/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行:ex...原创 2018-06-25 19:26:58 · 936 阅读 · 1 评论 -
Flume实战
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: Flume的一些简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,...原创 2018-06-24 17:23:04 · 1466 阅读 · 2 评论 -
HDFS上传的文件保存再本机的什么位置?
在hdfs中创建文件,文件会被存储在哪里? 会就近存储在相应的子节点中的Datanode文件夹中(如果没有特殊说明的话),主节点中不会有因为主节点中没有Datanode。/usr/local/hadoop/tmp/dfs/data/current/BP-69599534-192.168.1.128-1524394754210/current/finalized/subdir0/subdir0...原创 2018-05-24 21:06:26 · 6731 阅读 · 0 评论 -
HDFS定时上传脚本
HDFS定时上传脚本1、脚本名为uploadFile2Hdfs.v2.sh 2、脚本运行的java,hadoop环境分别是jdk1.7.0_51、hadoop(指定到安装目录即可) 3、虚拟机中 /usr/local/hadoop/logs/hdfslog/log/、 /usr/local/hadoop/logs/hdfslog/toupload/ 这俩恶搞文件夹 ...原创 2018-05-24 21:03:18 · 996 阅读 · 0 评论 -
牛逼的Hive-SQL实战
查询全体学生的学号与姓名 hive> select Sno,Sname from student;查询选修了课程的学生姓名 hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;—-hive的group by 和集合函数查询学生的总人数...原创 2018-06-12 09:39:17 · 1157 阅读 · 0 评论 -
Hive的外部表和分区表
构造一个外部表外部表的好处是删除external表,数据表的元数据不会被删除> create external table t_sz_ext(id int,name string)> row format delimited > fields terminated by '\t'> stored as textfield> location '/h...原创 2018-06-04 20:50:42 · 707 阅读 · 0 评论 -
Hive读取文件
hive读取文件教会hive怎么读文本数据这样直接读数据就是将文本文件上传到该数据表所在的hdfs的文件夹中hadoop fs -put studen.dat /user/hive/数据库名/表名hive> create table student(id int,name string)//创建表和属性> row formate delimited//教...原创 2018-06-04 20:47:57 · 5892 阅读 · 0 评论 -
神级Hive的SQL案列
Hive实战案例——级联求和 需求: 有如下访客访问次数统计表 t_access_times访客 月份 访问次数A 2015-01 5A 2015-01 15B 2015-01 5A 2015-01 8B 2015-01 25A 2015-01 5A...原创 2018-06-11 18:55:43 · 604 阅读 · 0 评论 -
Windows下用myeclipse运行MapReduce程序
Windows下用myeclipse运行MapReduce程序虚拟机中要有Hadoop环境如果没有搭建可以参考我的博客Hadoop搭建Windows和虚拟机的防火墙都要关闭hadoop 在启动的时候报下面的错误:2012-09-18 13:42:38,901 INFO org.apache.hadoop.ipc.Client: Retrying connect to...原创 2018-05-28 09:55:48 · 871 阅读 · 0 评论 -
namenode和secondary namenode之间的联系和区别
1、namenode是存储客户端想hdfs发送增删改查的要求的元数据的。 2、secondary namenode是存储namenode的元数据的,防止namenode宕机产生的数据丢失。 3、一条元数据打大小是150byte,namenode的存储空间大约是128G,secondary namenode的内存会稍微大一些。 4、因为这样的内存机制,所以hdfs不适合存储大量小数据,使用...原创 2018-05-25 20:53:26 · 5325 阅读 · 0 评论 -
CenotOS的静态ip地址配置
1、命令行界面中查看ip用 ip addr2、虽然centos默认安装了ssh但是也要重新安装ssh-server 在hadoop用户下安装 sudo yun install openssh-server3、命令行界面查看ssh就不是用service status sshd这样了 systemctl status sshd.ser...原创 2018-05-25 20:50:44 · 828 阅读 · 0 评论 -
crontab定时器
crontab定时器linux下的定时任务1、编辑使用crontab -e 一共6列,分别是:分、时、日、月、周、命令2、查看使用crontab -l3、删除任务crontab -r4、查看crontab执行日志 tail -f /var/log/cron 必须打开rsyslog服务cron文件中才会有执行日志(service rsyslog statu...原创 2018-07-23 10:00:27 · 1026 阅读 · 0 评论