
大数据技术基础
文章平均质量分 95
随着信息技术的发展和互联网的普及,大数据成为当今社会中不可忽视的重要资源。本专栏将从大数据技术的基础知识出发,介绍大数据技术的相关概念和常见应用。
Francek Chen
征途漫漫,惟有奋斗!优快云大数据领域优质创作者,2024博客之星TOP47,阿里云社区专家博主,华为云云享专家。热爱学习大数据与人工智能的相关知识,专注Hadoop、Spark实战,打造了《大数据技术基础》《Python机器学习》等热门专栏,助力行业技术落地。多篇热文登榜TOP,开源项目解析广受好评。以代码为笔,记录成长;以博客为媒,传递价值。关注我,一起畅游于数据变化的世界中,发现更多精彩~~
展开
-
【大数据技术基础 | 实验十五】Storm实验:部署Storm
本实验介绍Storm基础简介及体系架构,Storm集群安装部署,Storm和Zookeeper之间的关系,并加深对Storm架构和原理的理解。原创 2024-12-05 09:00:00 · 1571 阅读 · 44 评论 -
【大数据技术基础 | 实验十四】Kafka实验:订阅推送示例
本实验介绍Kafka的安装部署,Kafka的topic创建及如何生成消息和消费消息,Kafka和Zookeeper之间的关系,了解Kafka如何保存数据及加深对Kafka相关概念的理解。原创 2024-12-02 09:00:00 · 5672 阅读 · 58 评论 -
【大数据技术基础 | 实验十三】YARN实验:部署YARN集群
本实验介绍什么是YARN框架,如何搭建YARN分布式集群,并能够使用YARN集群提交一些简单的任务,理解YARN作为Hadoop生态中的资源管理器的意义。原创 2024-11-29 09:00:00 · 1918 阅读 · 41 评论 -
【大数据技术基础 | 实验十二】Hive实验:Hive分区
本实验介绍掌握Hive分区的用法,加深对Hive分区概念的理解,了解Hive表在HDFS的存储目录结构。原创 2024-11-22 09:00:00 · 6739 阅读 · 48 评论 -
【大数据技术基础 | 实验十一】Hive实验:新建Hive表
本实验介绍Hive的DDL操作,能够在Hive中新建,显示,修改和删除表等功能。原创 2024-11-15 09:00:00 · 5947 阅读 · 46 评论 -
【大数据技术基础 | 实验十】Hive实验:部署Hive
本实验介绍Hive的工作原理和体系架构,学会如何进行Hive的内嵌模式部署,启动Hive,然后将元数据存储在HDFS上。原创 2024-11-13 09:00:00 · 6356 阅读 · 52 评论 -
【大数据技术基础 | 实验九】Flume实验:文件数据Flume至HDFS
本实验介绍Flume的结构和安装部署,一个agent中source、sink、channel组件之间的关系,并实现实时收集本地hadoop的日志的最新信息然后将收集到日志信息以一分钟一个文件的形式写入HDFS目录中。原创 2024-11-11 08:00:07 · 3132 阅读 · 42 评论 -
【大数据技术基础 | 实验八】HBase实验:新建HBase表
本实验介绍HBase数据模型(逻辑模型及物理模型),通过Java代码实现与HBase数据库连接,然后用Java API创建HBase表,向创建的表中写数据,最后将表中数据读取出来并展示。原创 2024-11-06 11:54:23 · 6168 阅读 · 48 评论 -
【大数据技术基础 | 实验七】HBase实验:部署HBase
本实验介绍HBase体系架构和部署HBase的相关实验步骤。理解HBase基础简介及体系架构,掌握HBase集群安装部署及HBase Shell的常用命令,了解HBase和HDFS及Zookeeper之间的关系。原创 2024-11-01 09:00:00 · 6591 阅读 · 50 评论 -
【大数据技术基础 | 实验六】ZooKeeper实验:ZooKeeper进程协作
本实验介绍ZooKeeper在分布式系统实现多线程和进程间通信。用Java代码实现两个线程,向ZooKeeper中某一目录中写入数据和读取数据,实现ZooKeeper多个线程间的协作。原创 2024-10-31 10:00:00 · 940 阅读 · 37 评论 -
【大数据技术基础 | 实验五】ZooKeeper实验:部署ZooKeeper
本实验介绍部署ZooKeeper的原理和实验步骤。部署三个节点的ZooKeeper集群,通过ZooKeeper客户端连接ZooKeeper集群,并用Shell命令练习创建目录,查询目录等。原创 2024-10-26 19:26:06 · 2992 阅读 · 13 评论 -
【大数据技术基础 | 实验四】HDFS实验:读写HDFS文件
本文介绍HDFS读写文件的相关原理和实验步骤。搭建HDFS开发环境,分别在master服务器上和Eclipse环境中编写了HDFS写、读代码,在master机上执行了该写、读程序。通过实验了解HDFS读写文件的调用流程,理解HDFS读写文件的原理。原创 2024-10-18 10:00:00 · 3804 阅读 · 51 评论 -
【大数据技术基础 | 实验三】HDFS实验:部署HDFS
本文介绍部署HDFS相关原理和实验步骤。理解HDFS体系架构和master/slave架构,学会逐一启动HDFS和统一启动HDFS,并完成在HDFS中新建目录和上传文件。原创 2024-10-17 10:00:00 · 2311 阅读 · 11 评论 -
【大数据技术基础 | 实验二】Linux基础:常用基本命令和文件操作
本文介绍Linux常用基本命令和文件操作。学会linux常用命令(cd,ls,pwd,mkdir,rm,cp,mv)的使用方法,学会linux文件操作命令(touch,cat,more)的使用方法。原创 2024-10-13 09:41:51 · 1018 阅读 · 12 评论 -
【大数据技术基础 | 实验一】配置SSH免密登录
本文介绍大数据实验一体机并了解如何搭建集群,了解SSH免密登录的原理以及为何需要配置SSH免密登录,并掌握如何配置SSH免密登录。原创 2024-10-12 20:55:19 · 1576 阅读 · 3 评论 -
【大数据安全】数据管理安全&安全分析&隐私保护
本篇文章介绍数据管理安全,安全分析和隐私保护。原创 2024-01-31 13:45:52 · 3347 阅读 · 0 评论 -
【大数据安全】大数据安全的挑战与对策&基础设施安全
大数据安全是指在大数据环境下,为了保护数据不被非法获取、篡改或破坏,确保数据的安全性、完整性和可用性的一系列措施和技术。本文介绍大数据安全的挑战与对策和基础设施安全。原创 2024-01-30 16:59:51 · 2487 阅读 · 0 评论 -
【数据可视化技术】可视化组件与Echarts示例
由于ECharts可视化基于JavaScript语言,因此掌握一定JavaScript语言的基本知识将有助于对ECharts的学习。本篇文章介绍Echarts使用及示例。原创 2024-01-25 09:38:34 · 1537 阅读 · 0 评论 -
【数据可视化技术】数据可视化概述&工具
数据可视化,是关于数据视觉表现形式的科学技术研究,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息。本篇文章介绍数据可视化的概念及数据可视化工具。原创 2024-01-24 15:23:05 · 8292 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout分类算法
分类是使用特定信息从一个预定义的潜在回应列表中做出单一选择的过程。本篇文章介绍分类的概念,和一些在Mahout中的常见的训练分类器的算法。原创 2024-01-23 15:56:12 · 1472 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout聚类算法
数据聚类,也称为聚类分析、分割分析或无监督分类,是一种创建数据对象集合的方法。本篇文章介绍聚类的基本概念,以及在Mahout中如何使用聚类算法对数据进行分析。原创 2024-01-21 15:19:36 · 1752 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout推荐算法
推荐是Mahout机器学习算法的主题之一,它极大地渗透到了人们日常生活的方方面面。本篇文章首先对推荐程序的定义等概念进行描述;然后介绍Mahout中关于推荐部分的一些算法;最后示范如何利用Mahout进行数据分析,并得出对用户的推荐结果。原创 2024-01-20 11:43:30 · 2283 阅读 · 0 评论 -
【大数据分析与挖掘技术】概述
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。本篇文章对数据挖掘的相关概念简要介绍,着手使用Mahout进行数据分析和挖掘。原创 2024-01-19 10:21:47 · 2380 阅读 · 0 评论 -
【数据采集与预处理】数据传输工具Sqoop
Sqoop是一款开源的工具,Sqoop主要用于在Hadoop与传统的数据库间进行数据的传递。本文介绍Sqoop简介、Sqoop安装配置以及数据传输的操作过程。原创 2024-01-18 14:36:19 · 2797 阅读 · 0 评论 -
Flume实时读取本地/目录文件到HDFS
本篇文章介绍如何使用Flume实时读取本地/目录文件到HDFS上。原创 2024-01-08 16:10:21 · 2068 阅读 · 0 评论 -
【数据仓库与联机分析处理】数据仓库工具Hive
Hive是基于Hadoop的一个数据仓库工具,十分适合对数据仓库进行统计分析。本篇文章介绍Hive的安装配置以及配置Hive元数据存储到MySQL。原创 2024-01-07 22:10:55 · 2452 阅读 · 0 评论 -
【数据仓库与联机分析处理】多维数据模型
数据仓库和OLAP工具是基于多维数据模型的,该模型以数据立方体(Cube)的形式来观察和分析数据。本篇文章介绍多维数据模型。原创 2024-01-06 19:55:12 · 2000 阅读 · 0 评论 -
【数据采集与预处理】流数据采集工具Flume
Flume是一种分布式、具有高可靠和高可用性的数据采集系统,可从多个不同类型、不同来源的数据流汇集到集中式数据存储系统中。本篇文章介绍Flume架构、安装配置及其Spark应用。原创 2024-01-05 23:51:22 · 3147 阅读 · 1 评论 -
【数据仓库与联机分析处理】数据仓库
本篇文章主要介绍数据仓库。数据仓库是一个面向主题的、集成的、相对稳定的以及反映历史变化的数据集合,用于支持管理决策。原创 2024-01-03 09:44:57 · 1792 阅读 · 0 评论 -
【数据采集与预处理】数据接入工具Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。原创 2023-12-28 20:59:38 · 3510 阅读 · 0 评论 -
大数据存储技术(4)—— NoSQL数据库
NoSQL数据库适用于数据模型比较简单、IT系统更强的灵活性、对数据库性能要求较高且不需要高度的数据一致性等场景。本篇文章简单介绍常见的NoSQL数据库类型。原创 2023-12-20 12:49:51 · 2393 阅读 · 1 评论 -
大数据存储技术(3)—— HBase分布式数据库
HBase是Apache的Hadoop项目的子项目,是一个分布式的、面向列的开源数据库。本篇文章介绍HBase及其安装配置。原创 2023-12-16 21:54:10 · 2992 阅读 · 4 评论 -
Spark分布式内存计算框架
Spark是一种基于内存的、用以实现高效集群计算的平台。Spark有着自己的生态系统,但同时兼容HDFS、Hive等分布式存储系统,可以完美融入Hadoop的生态圈中,代替MapReduce去执行更高的分布式计算。原创 2023-12-11 15:29:26 · 3464 阅读 · 1 评论 -
MapReduce分布式编程
MapReduce是一个分布式运算程序的编程框架,用于大规模数据集的并行处理,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2023-12-09 19:30:03 · 2396 阅读 · 0 评论 -
大数据存储技术(2)—— HDFS分布式文件系统
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS就是分布式文件管理系统中的一种。原创 2023-12-07 21:43:49 · 2044 阅读 · 0 评论 -
大数据存储技术(1)—— Hadoop简介及安装配置
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文介绍Hadoop及其集群的搭建。原创 2023-12-06 22:34:18 · 18506 阅读 · 32 评论 -
大数据软件基础(3) —— 在VMware上安装Linux集群
CentOS(Community Enterprise Operating System,中文意思是社区企业操作系统)是Linux发行版之一,是免费的、开源的、可以重新分发的开源操作系统。自2004年3月以来,CentOS Linux一直是社区驱动的开源项目,旨在与RHEL在功能上兼容。本文详细讲解如何安装CentOS Linux虚拟机。原创 2023-12-05 18:14:50 · 2188 阅读 · 0 评论 -
大数据软件基础(2)—— Java、SQL
Hadoop是用Java写的,在Hadoop为主导的大数据处理技术生态圈的编程语言中,Java语言有不可撼动的地位。Hadoop生态圈的 Hive、Spark 等也仿照SQL语言提出了自己的类SQL语言,用于数据的查询和分析等。原创 2023-12-02 13:08:47 · 1514 阅读 · 0 评论 -
大数据软件基础(1)—— Linux
Linux系统核心最初是由芬兰赫尔辛基大学学生Linus Torvalds在1990年设计。后来,Linux周边程序越来越多,在不到三年的时间里,linux成为了一个功能完善,稳定可靠的操作系统。原创 2023-12-01 17:41:22 · 1329 阅读 · 0 评论 -
大数据技术概述
大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。原创 2023-11-28 21:39:16 · 4739 阅读 · 1 评论