- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 Apache Sqoop 基础(入门)
sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系...
2019-08-01 19:41:45
664
原创 虚拟机新增磁盘
关机新增磁盘虚拟机关机的状态下,在VMware当中新增一块磁盘。开机挂载盘开启虚拟机,对新增的磁盘进行分区,格式化,并且挂载新磁盘到指定目录。下面对分区进行格式化操作:mkfs -t ext4 -c /dev/sdb1创建挂载目录:mount -t ext4 /dev/sdb...
2019-07-19 09:56:36
420
原创 数据仓库-Hive的调优
hive的调优:第一个调优:fetch抓取,能够避免使用mr的,就尽量不要用mr,因为mr太慢了 set hive.fetch.task.conversion=more 表示我们的全局查找,字段查找,limit查找都不走mr 这个属性配置有三个取值 more minimal none 如果配置成none,所有的都要走mr程序 hive的本地模式:...
2019-07-18 16:44:49
282
原创 Linux 常用命令(基础)
常用命令总结1、常用操作 查看当前目录下的所有文件及目录 ls/ll 进入目录 cd 查看当前目录 pwd 结束当前进程 ctrl+c/ctrl+z 新建目录 mkdir dir1[ dir2 dir3 dir4] 新建四个dir 删除目录 r...
2019-07-18 09:58:01
213
原创 Linux 同步时间
同步时间:(必须有网络)安装ntpdate yum install ntp 输入命令手动同步时间:ntpdate -v ntp1.aliyun.com 或者 ntpdate time.nist.gov使用使用crontab计划任务定时更新网络时间,修改crontab文件cd /etc/crontab vim crontab*/1 * * * * /usr/s...
2019-07-17 20:53:04
117
原创 Flume-NG
Flume-NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。架构设计要点F...
2019-07-17 19:01:01
1768
转载 从知乎上看到的对自己有用的几点建议(从菜鸟进化到老手)
1.重构是程序员的主力技能。2.工作日志能提升脑容量。3.先用profiler调查,才有脸谈优化。4.注释贵精不贵多。杜绝大姨妈般的“例注”。漫山遍野的碎碎念注释,实际就是背景噪音。5.普通程序员+google=超级程序员。6.单元测试总是合算的。7.不要先写框架再写实现。最好反过来,从原型中提炼框架。8.代码结构清晰,其它问题都不算事儿。9.好的项目作风硬派,一键测试,一键发布,...
2019-07-14 19:21:14
185
原创 数据仓库-Hive(三)
5.Hive Shell参数5.1 Hive命令行语法结构bin/hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明:1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -v ...
2019-07-14 19:14:32
256
原创 数据仓库-Hive(二)
3. Hive 的基本操作3.1 数据库操作3.1.1 创建数据库create database if not exists myhive;use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value&g...
2019-07-14 19:10:09
268
原创 数据仓库-Hive(一)
1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面向分析的存储...
2019-07-14 19:01:11
278
原创 MySQL多表&事务
多表查询:* 查询语法: select 列名列表 from 表名列表 where....* 准备sql # 创建部门表 CREATE TABLE dept( id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20) ); IN...
2019-07-12 17:03:24
111
原创 MYSQL约束(进阶)
DQL:查询语句1. 排序查询 * 语法:order by 子句 * order by 排序字段1 排序方式1 , 排序字段2 排序方式2... * 排序方式: * ASC:升序,默认的。 * DESC:降序。 * 注意: * 如果有多个排序条件,则当前边的条件值一样时,才会判断第二条件。...
2019-07-12 16:56:37
90
原创 MYSQL基础知识
数据库的基本概念1. 数据库的英文单词: DataBase 简称 : DB2. 什么数据库? * 用于存储和管理数据的仓库。3. 数据库的特点: 1. 持久化存储数据的。其实数据库就是一个文件系统 2. 方便存储和管理数据 3. 使用了统一的方式操作数据库 -- SQLMySQL数据库软件1. 安装 * 参见《MySQL基础.pdf...
2019-07-12 16:51:21
94
华为初级工程师课件
2018-01-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人