猿创征文|大数据之离线数据处理总结+思维导图(全面总结)

离线数据处理

Java和MySQL

Linux

Linux操作目录

Linux树状结构操作目录
/根目录

/bin、/sbin、/usr、/root、/home、/cd、/tmp、/etc、/proc、/boot、/dev、/sys、/var、/mnt、/opt、/src

Linux常用命令

ls、cd、pwd、mkdir、touch、echo、cp、mv、vi、In、cat、more、head、tail、find、grep、which、whereis、df、du、free、tar、gzip、bzip2、zip、date、shutdown、powoff、reboot、ping、ip addr、netstat、ps、pstree、top、kill、nohup、uptime、su、sudo、useradd、password、userdel、groupadd、chmod、chown、yum、rpm

定时器crontab
Linux中进行定时任务

配置

年 year、月 month、日 day、小时 hour、分钟 minute

*代表所有、数字代表具体、-数字与数字之间的范围、/数字与数字之间做跳跃范围

shell编程
#!/bin/bash
bash或sh运行shell脚本

定义变量、位置参数变量、环境变量、系统变量、预定义变量

运算符(expr)、${变量}、字符串、数组、if语句、循环语句、函数

Linux版本

CentOS主要版本

Hadoop

大数据的概念

海量数据、具有高增长率、数据类型多样化

大数据的4V特征
  • 数据量庞大
  • 数据多样性
  • 数据增长快
  • 数据价值低密度
大数据的日常应用

美团单车保修、饿了么杀熟、嘀嘀打车杀熟、电商推荐、对用户日常画像

企业大数据的处理流程

数据源、数据采集与同步、数据存储、数据清洗、数据分析、数据展示

大数据框架Hadoop

Hadoop是大数据常用框架提供数据统一存储与计算

Hadoop框架安装{本地模式(测试)、伪分布式(测试)、完全分布式(实际开发)}

HDFS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ChlinRei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值