
图解大数据技术 ◉ 全生态知识宝库
文章平均质量分 93
AI工程师『不得不』掌握的大数据技术,都汇总在这份路线里!教程以大数据技术为根基,讲解大数据开发、数据处理、数据分析的核心理论&实战技能!获取资料与全部更新,请前往 www.showmeai.tech/tutorials/84 欢迎关注我呀!
ShowMeAI
人工智能领域硬核资料库和学习社区,构建AI解决方案,用知识加速每一次技术成长!
展开
-
图解大数据技术:从入门到精通系列教程
本篇内容是ShowMeAI组织的「图解大数据处理与开发」系列教程入口,本教程以大数据技术为根基,给大家讲解大数据开发与数据处理分析的相关知识与技能,并配以相关的实战案例帮助大家学习理解。...原创 2022-02-25 02:43:32 · 10866 阅读 · 0 评论 -
大数据开发!Pandas转spark无痛指南!
Pandas灵活强大,是数据分析必备工具库!但处理大型数据集时,需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段,掌握即可丝滑切换。原创 2022-09-22 09:15:16 · 13530 阅读 · 0 评论 -
图解大数据 | 大数据生态与应用导论
随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。...原创 2022-02-25 03:12:08 · 11598 阅读 · 0 评论 -
图解大数据 | 分布式平台Hadoop与Map-Reduce详解
Hadoop是最基础和场景的开源分布式计算平台,ShowMeAI在本节内容中给大家讲解Hadoop相关知识。原创 2022-02-25 02:43:38 · 13817 阅读 · 0 评论 -
图解大数据 | Hadoop系统搭建与环境配置@实操案例
本教程详细讲解Hadoop的安装与环境配置方法,并配有相关软件的下载方法。需要注意的是,本教程的工作环境为Linux系统。原创 2022-03-02 13:01:26 · 10823 阅读 · 0 评论 -
图解大数据 | 应用Map-Reduce进行大数据统计@实操案例
Hadoop使用一套Map-Reduce的计算框架,解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码,详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。原创 2022-03-08 18:06:24 · 12110 阅读 · 0 评论 -
图解大数据 | Hive搭建与应用@实操案例
Hive是大数据离线计算的关键组件,常用于数仓建设。本节ShowMeAI来详细讲解Hive的搭建和配置及使用方法。原创 2022-03-08 18:19:52 · 11384 阅读 · 0 评论 -
图解大数据 | Hive与HBase详解@海量数据库查询
HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库,包含Region Server、HBase Master、ZooKeeper等三个组件。Hive是基于Hadoop的一个数据仓库工具,用于结构化数据的查询、分析和汇总。原创 2022-03-08 18:47:01 · 16593 阅读 · 0 评论 -
图解大数据 | 大数据分析挖掘-Spark初步
Apache Spark是目前最主流和常用的分布式开源处理系统,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。原创 2022-03-08 19:10:15 · 10978 阅读 · 0 评论 -
图解大数据 | 基于Spark RDD的大数据处理分析
RDD(弹性分布式数据集合)是Spark的基本数据结构,Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点,并图解RDD高频算子。原创 2022-03-08 21:18:07 · 12924 阅读 · 0 评论 -
图解大数据 | 综合案例-使用Spark分析挖掘零售交易数据
电商与新零售是目前大数据与AI应用最广泛的场景之一,本案例以跨国在线零售业务为背景,讲解使用pyspark对HDFS存储的数据进行交易数据分析的过程,并且对分析结果使用echarts做了可视化呈现。原创 2022-03-08 22:25:01 · 15888 阅读 · 4 评论 -
图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据
文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景,讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程,并且对分析结果做了可视化呈现。原创 2022-03-08 22:56:27 · 18278 阅读 · 6 评论 -
图解大数据 | 流式数据处理-Spark Streaming
Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量。本文讲解Spark Streaming的架构、作业提交和工作原理,以及DStream的创建、转换和Graph,并通过案例代码展示应用的细节。原创 2022-03-08 23:12:23 · 14715 阅读 · 0 评论 -
图解大数据 | Spark机器学习(上)-工作流与特征工程
本文介绍Spark中用于大数据机器学习的板块MLlib/ML,讲解机器学习工作流(Pipeline)及其构建方式,并详解讲解基于DataFrame的Spark ML特征工程,包括二值化、定边界离散化、标准化、特征抽取等。原创 2022-03-09 00:05:25 · 12111 阅读 · 0 评论 -
图解大数据 | Spark机器学习(下)—建模与超参调优
本文介绍Spark中用于大数据机器学习的板块MLlib/ML,讲解分类算法、回归算法、聚类算法和PCA降维算法的代码实践,并讲解超参数调优和交叉验证、训练集验证集切分等重要知识点。原创 2022-03-09 00:05:47 · 12799 阅读 · 1 评论 -
图解大数据 | Spark GraphFrames-基于图的数据分析挖掘
GraphFrames库构建在DataFrame之上,具备DataFrame强大的性能,也提供了统一的图处理API。本文讲解GraphFrames的构建使用,包括query与数据分析、图中点与边的计算、图入度与出度的应用等。原创 2022-03-09 00:06:06 · 11156 阅读 · 0 评论