
——Hadoop
文章平均质量分 66
Hadoop是分布式存储
脸ル粉嘟嘟
BigDate.我命由我!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python 在人工智能与大数据中的应用
【代码】Python 在人工智能与大数据中的应用。原创 2024-11-15 14:35:37 · 485 阅读 · 0 评论 -
常用命令之Linux&Oracle&Hive&Python
【代码】常用命令之Linux&Oracle&Hive&Python。原创 2024-11-14 14:28:40 · 629 阅读 · 0 评论 -
大数据CDP集群中Impala&Hive常见使用语法
【代码】大数据CDP集群中Impala&Hive常见使用语法。原创 2024-11-14 13:34:10 · 1210 阅读 · 0 评论 -
使用python-Spark使用的场景案例具体代码分析
• 日志分析:互联网公司每天会产生海量的服务器日志,如访问日志、应用程序日志等。Spark可以高效地读取这些日志文件,对数据进行清洗(例如去除无效记录、解析日志格式)、转换(例如提取关键信息如用户ID、访问时间、访问页面等)和分析(例如统计页面访问量、用户访问路径等)。• 数据仓库ETL(Extract,Transform,Load):在构建数据仓库时,需要从各种数据源(如关系型数据库、文件系统等)提取数据,进行清洗、转换和加载到数据仓库中。原创 2024-11-14 13:11:02 · 832 阅读 · 0 评论 -
使用Python实现对接Hadoop集群(通过Hive)并提供API接口
安装必要的库首先,确保已经安装了以下库:代码实现。原创 2024-11-14 09:01:36 · 1284 阅读 · 0 评论 -
七夕来袭!还要做CDH数据迁移怎么办?来看看DistCp
该工具用于大规模集群内部和集群之间数据拷贝,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。...............原创 2022-08-04 17:46:17 · 900 阅读 · 0 评论 -
Hadoop-YARN
集群资源管理器——YARN一、hadoop yarn 简介二、YARN架构 1. ResourceManager 2. NodeManager  ...原创 2019-08-05 18:18:31 · 366 阅读 · 0 评论