
Hadoop
文章平均质量分 73
PanYu——BJ
懂些皮毛
展开
-
H D F S 安全模式的解决方案!
在安全模式下不可以进行以下操作:1)创建文件夹2)上传文件3)删除文件注意:启动了namenode,未启动datanode,则文件系统处于安全模式,只可以查看文件系统上有哪些文件,不可以查看文件内容,因为datanode都还没启动,怎么可能可以查看文件内容命令:手动进入安全模式:hdfs dfsadmin -safemode enter退出安全模式:hadoop dfsadmin -...原创 2018-11-27 15:44:59 · 404 阅读 · 0 评论 -
求TopN思路
给你一组数据你怎么求TopN?1.首先map做映射2.sortByKey排序3.Take (取前几个)原创 2019-01-23 15:10:57 · 741 阅读 · 0 评论 -
hive实现新用户计算流程:
问题1 : his_user_info 这个表里面没有数据 (历史表--第一天没有数据) 问题2 : day_users_logs_dis(去重过的数据--老用户+新用户) 和 his_user_info(历史表--老用户) 得到 每天的新增用户的信息表原创 2018-11-22 16:43:09 · 737 阅读 · 0 评论 -
大数据项目总体流程
大概流程图:分为三层(数据采集层,数据存储与计算处理层,数据可视化):原创 2019-01-18 10:07:04 · 2264 阅读 · 0 评论 -
Hadoop_MR
MapReduce流程图:原创 2019-01-20 10:33:30 · 431 阅读 · 0 评论 -
VMware的 主机模式 转 net模式
1、查看vmnet8网段:2、查看VMware虚拟机虚拟网络编辑器(子网IP必须和VMnet8是同一个网段):3、设置网关:4、设置Linux网络IP:5.ping www.baidu.comOK ! ! !...原创 2018-12-18 18:39:02 · 230 阅读 · 0 评论 -
Crontab--定时器
Linux 自带的定时器:要么就是脚本+Crontab△ 注意下划线是为了看到内容 需要忽略下划线!!!30 0 * * * bashcrond 是 linux 下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与 windows 下的计划任务类似.crontab 文件的含义:用户所建立的 crontab 文件中,每一行都代表一项任务,每行的每个字段代表一项设置,它的格式...原创 2018-12-11 16:53:21 · 812 阅读 · 1 评论 -
Shell 简介及其使用
==> 基本概念 以文件的形式批量的存放linux 的命令集合。可以被shell解释执行,这种文件就是shell脚本程序。 Shell程序通常由linux命令,shell命令,控制语句以及注释语句构成。 Shell脚本是纯文本文件,可以由任何文本编辑器编写,shell文件通常是以 .sh 为文件后缀。.bash 结尾的==>编写规范第一行,指定哪个程序来执行脚本#...原创 2018-12-11 13:33:22 · 172 阅读 · 0 评论 -
Parquet介绍及简单使用
==> 什么是parquet Parquet 是列式存储的一种文件类型==> 官网描述:Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework...原创 2018-12-11 09:47:32 · 2141 阅读 · 0 评论 -
H D F S 基 本 概 念
hdfs 组件介绍:nameNode:集群的老大,主节点,存放元数据(Metedata)信息处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;记录每一数据块在各个DataNode上的位置和副本信息nameNode使用事物日志(EditsLog)记录HDFS元数据的变化信息,使用映像文件(FsImageLOg)来存储系统的命名空间,包括:文件映射、文件属性等;通说检查点(Che...原创 2018-12-04 09:38:54 · 1188 阅读 · 0 评论 -
S Q O O P
sqoop数据迁移1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。角度是hdfs导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 从关系型数据库中把数据导入到大数据系统中。导出数据:从Hadoop的文件系统hdfs中导出数据到关系数据库MySQL,Oracle,从大数据系统中把数据...原创 2018-11-22 20:24:26 · 180 阅读 · 0 评论 -
Hive thrift 服务
服务往往指的是一个一直在后台运行的程序,可以通过其他方式来访问它.Mysql服务器服务 + 客户端启动方式,(假如是在VM1上):启动为前台:bin/hiveserver2特点:第一如果你把窗口关闭,这个服务就死了,第二会在这个窗口把运行的日志打印出来一般来说,前台服务用的很少。启动为后台并且把标准输出和错误输出分别输出到指定的日志文件里面:nohup ./bin/hiveser...原创 2018-11-21 09:53:28 · 1183 阅读 · 0 评论 -
常用的 SQL 语句 !! !
一、基础1、说明:创建数据库CREATE DATABASE database-name2、说明:删除数据库drop database dbname3、说明:备份sql server— 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice ‘disk’, ‘testBack’, ‘c:\mssql7backup\MyNwind_1.dat’— ...原创 2018-11-20 16:30:48 · 318 阅读 · 0 评论 -
H B A S E 基 本 操 作
了解:-创建表: create '表名称', '列名称1','列名称2','列名称N'-添加记录: put '表名称', '行名称', '列名称:', '值'-查看记录: get '表名称', '行名称'-查看表中的记录总数: count '表名称'-删除记录: delete '表名' ,'行名称' , '列名称'-删除一张表: 先要屏...原创 2018-09-21 14:59:39 · 393 阅读 · 0 评论 -
H B A S E 基 本 概 念
1.sql 结构化查询语言 字段和类型都是固定的2.什么是hbase?HBase是一个分布式的、面向列的开源数据库,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。3.nosql的作用?为了解决大规模数据集合、多重数据种类带来的挑战,尤其是大数据应用难题。4.常见nosql? 常见sql?NOSql(非...原创 2018-09-21 14:24:40 · 629 阅读 · 0 评论