离线数据处理
Java和MySQL
Linux
Linux操作目录
Linux树状结构操作目录
/根目录
/bin、/sbin、/usr、/root、/home、/cd、/tmp、/etc、/proc、/boot、/dev、/sys、/var、/mnt、/opt、/src
Linux常用命令
ls、cd、pwd、mkdir、touch、echo、cp、mv、vi、In、cat、more、head、tail、find、grep、which、whereis、df、du、free、tar、gzip、bzip2、zip、date、shutdown、powoff、reboot、ping、ip addr、netstat、ps、pstree、top、kill、nohup、uptime、su、sudo、useradd、password、userdel、groupadd、chmod、chown、yum、rpm
定时器crontab
Linux中进行定时任务
配置
年 year、月 month、日 day、小时 hour、分钟 minute
*
代表所有、数字代表具体、-
数字与数字之间的范围、/
数字与数字之间做跳跃范围
shell编程
#!/bin/bash
bash或sh运行shell脚本
定义变量、位置参数变量、环境变量、系统变量、预定义变量
运算符(expr)、${变量}、字符串、数组、if语句、循环语句、函数
Linux版本
CentOS主要版本
Hadoop
大数据的概念
海量数据、具有高增长率、数据类型多样化
大数据的4V特征
- 数据量庞大
- 数据多样性
- 数据增长快
- 数据价值低密度
大数据的日常应用
美团单车保修、饿了么杀熟、嘀嘀打车杀熟、电商推荐、对用户日常画像
企业大数据的处理流程
数据源、数据采集与同步、数据存储、数据清洗、数据分析、数据展示
大数据框架Hadoop
Hadoop是大数据常用框架提供数据统一存储与计算
Hadoop框架安装{本地模式(测试)、伪分布式(测试)、完全分布式(实际开发)}