大数据实训

本文介绍了大数据实训中的工具和架构,包括vmware、Linux、Hadoop、Hive、Spark等,并探讨了离线批处理和实时流计算的数据来源、缓冲、存储、分析及展示。重点涉及数据采集工具如MR、Spark、Flink,以及实时数据存储如Redis、HBase和流处理框架如Spark Streaming、Flink。

工具

vmware15
Linux centos7.5
Hadhoop3.2.1
Hive3.1.2
SpringBoot
Echart
zk3.4.5

架构

  1. 编码[内存]
  2. 磁盘(textfile xml json)
  3. RDBMS(mysql oracle)
  4. 分布式、集群 (nosql)
  5. Hadhoop
    在这里插入图片描述

数仓架构

离线:批计算——攒了一批数据、计算一次

  1. 数据来源
    (1)业务数据【RDBMS】
    (2)行为数据【行为日志】
    (3)爬虫数据【api】
    (4)第三方交易【api】
  2. 数据采集
    (1)mr
    (2)spark
    (3)flink
    3.数仓搭建
    (1)Hive
    4.业务流程
    在这里插入图片描述

实时:流计算——来一次计算一次
1.数据来源
(1)业务数据【RDBMS】
(2)行为数据【行为日志】
(3)爬虫数据【api】
(4)第三方交易【api】
2.缓冲
(1)kafla
3.存储
(1)redis
(2)hbase
(3)sprakstreaming
(4)flink
(5)blink
4.分析
(1)olap分析引擎

### 大数据实训项目示例 以下是几个常见的大数据实训项目或案例,涵盖了从基础到高级的不同层次: #### 1. **基于Hadoop的大规模日志分析** 通过使用Hadoop生态系统中的工具(如MapReduce、Pig、Hive),可以实现大规模的日志文件的存储和分析。例如,可以通过编写MapReduce程序来统计网站访问量、用户行为模式等[^1]。 ```bash [hadoop@hadoop101 ~]$ hadoop jar loganalysis.jar LogAnalysis /input/logs.txt /output/logresults ``` 此项目可以帮助学生熟悉分布式计算环境下的批处理流程,并掌握如何优化性能以应对海量数据。 #### 2. **利用Spark进行实时流式数据分析** 借助Apache Spark Streaming模块,能够构建应用程序接收来自Kafka的消息队列的数据源,对其进行过滤、聚合操作后再写入目标位置保存或者触发告警机制[^3]。 ```scala val ssc = new StreamingContext(conf, Seconds(5)) ssc.socketTextStream("localhost", 9999).flatMap(_.split(" ")) .map(word => (word, 1)).reduceByKey(_ + _).print() ssc.start(); ssc.awaitTermination() ``` 这种类型的练习非常适合希望了解现代互联网服务背后技术原理的学习者们尝试动手实践一下。 #### 3. **超市电商销售趋势预测模型建立** 结合历史交易记录,运用机器学习算法对未来一段时间内的商品需求做出预估;同时还可以进一步探讨影响因素之间的关系网络图谱绘制等问题解决方案设计思路分享如下所示代码片段展示了部分核心逻辑实现方法之一即线性回归法的应用场景实例[^4]: ```python from sklearn.linear_model import LinearRegression X_train, X_test, y_train, y_test = train_test_split(df[['Feature1','Feature2']], df['Target'], test_size=0.2) model = LinearRegression().fit(X_train,y_train) predictions=model.predict(X_test) mse=np.mean((predictions-y_test)**2); rmse=mth.sqrt(mse) print(f'Mean Squared Error:{mse:.4f}, Root Mean Square Error:{rmse:.4f}') ``` 以上三个方向只是众多可能性当中的很小一部分而已,在实际应用过程中还需要考虑更多细节方面的要求比如安全性保障措施等方面的内容也需要纳入考量范围之内才行哦!
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值