
hadoop
文章平均质量分 88
星星法术嗲人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据技术——实战项目:广告数仓(第八部分)FineBI实战
FineBI是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品,其定位是一个大数据自助分析工具,旨在帮助企业的业务人员充分了解和利用他们的数据。原创 2024-08-15 13:43:10 · 1156 阅读 · 1 评论 -
大数据技术——实战项目:广告数仓(第七部分)数仓工作流调度实操
由于工作流要执行的脚本需要调用Hive、DataX等组件,故在DolphinScheduler的集群模式下,需要确保每个WorkerServer节点都有脚本所依赖的组件。由于DolphinScheduler集群模式启动进程较多,对虚拟机内存要求较高。广告管理平台的数据主要作为维度信息,此处不再生成或修改,后续直接全量同步即可。将工作流所需的所有脚本上传到资源中心ad_scripts路径下,结果如下。(3)在ad项目下创建工作流。(2)上传工作流所需脚本。(2)上传工作流所需脚本。(2)启动Kafka。原创 2024-08-14 23:33:42 · 1190 阅读 · 0 评论 -
大数据技术——DolphinScheduler的集群部署
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。工作流要求:工作流需包含三个Shell类型的任务节点,分别是A,B,C。1)创建工作流2)配置任务节点(1)节点A(2)节点B(3)节点C3)配置任务节点的依赖关系配置依赖的关系的方式如下两种:(1)直接对 DAG 图进行拖拽操作(2)在节点设置中选择 “前置任务”4)保存工作流定义。原创 2024-08-14 15:41:16 · 2578 阅读 · 0 评论 -
大数据技术——实战项目:广告数仓(第六部分)报表数据导出至clickhouse
功能,以及进行自助分析的能力,所以为保证数据分析的最大灵活度,我们需要提供明细数据。综合考虑:我们选择使用clickhouse作为分析引擎。由于本项目最终要出的报表,要求具备。Clickhouse的安装和使用可参考以下博客。:由于需要计算明细数据,所说数据量相对较大。,交互式的自助分析,一般都要求低延时。原创 2024-08-14 14:05:32 · 1101 阅读 · 0 评论 -
大数据技术—— Clickhouse安装
通过类LSM tree的结构,ClickHouse在数据导入时全部是顺序append写,写入后数据段不可更改,在后台compaction时也是多个段merge sort后顺序写回磁盘。ClickHouse和MySQL类似,把表级的存储引擎插件化,根据表的不同需求可以设定不同的存储引擎。但是当想查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的。几乎覆盖了标准SQL的大部分语法,包括 DDL和 DML,以及配套的各种函数,用户管理及权限管理,数据的备份与恢复。原创 2024-08-14 10:51:38 · 1288 阅读 · 0 评论 -
大数据技术——实战项目:广告数仓(第五部分)数仓dim、dwd层的数据装载
该函数的主要功能是根据IP地址得到其所属的地区、省份、城市等信息。上述功能一般可通过以下方案实现:方案一:请求某些。原创 2024-08-12 22:38:00 · 1580 阅读 · 0 评论 -
大数据技术——实战项目:广告数仓(第四部分)环境准备与ods层数据装载
容量调度器对每个资源队列中同时运行的Application Master占用的资源进行了限制,该限制通过yarn.scheduler.capacity.maximum-am-resource-percent参数实现,其默认值是0.1,表示每个资源队列上Application Master最多可使用的资源为该队列总资源的10%,目的是防止大部分资源都被Application Master占用,而导致Map/Reduce Task无法执行。如果报错,就根据提示,修改相关方法,直到不报错,打包获取jar包。原创 2024-08-11 20:51:34 · 1393 阅读 · 0 评论 -
大数据技术——Hive的安装与部署
Hive元数据库的字符集默认为Latin1,由于其不支持中文字符,所以建表语句中如果包含中文注释,会出现乱码现象。重启Xshell对话框或者source一下 /etc/profile.d/my_env.sh文件,使环境变量生效。在$HIVE_HOME/conf目录下新建hive-site.xml文件。1.2.3 调优,修改hive/conf/hive-env.sh 参数。hive-env.sh.template名称为hive-env.sh。修改Hive元数据库中存储注释的字段的字符集为utf-8。原创 2024-08-11 15:16:37 · 1393 阅读 · 0 评论 -
大数据技术——实战项目:广告数仓(第三部分)模拟数据生成与利用datax、flume采集数据
广告数仓采集通道,模拟数据准备,广告管理平台数据库曝光点击监测数据,广告管理平台数据采集,DataX的使用与配置文件,采集通道安装flume日志采集与消费原创 2024-08-11 11:39:08 · 1545 阅读 · 0 评论 -
大数据技术——Flume的安装与部署
(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/module/目录下。(3)下载地址:http://archive.apache.org/dist/flume/(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的。配置文件,配置日志文件路径。也就是修改以下两个内容。原创 2024-08-10 15:27:47 · 493 阅读 · 0 评论 -
大数据技术——Kafka的安装部署与启停脚本
(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。)把主题中所有的数据都读取出来(包括历史数据)操作的topic名称。操作的topic名称。操作的topic名称。原创 2024-08-10 15:18:05 · 932 阅读 · 0 评论 -
大数据技术——zookeeper的安装部署与启停脚本
是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。(1)重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。(2)在/opt/module/zookeeper/zkData目录下创建一个myid的文件。(1)在/opt/module/zookeeper/目录下创建zkData。(1)解压Zookeeper安装包到/opt/module/目录下。原创 2024-08-10 14:47:02 · 1228 阅读 · 0 评论 -
大数据技术——DataX配置文件生成器
DataX配置文件生成器的编写原创 2024-08-10 13:32:35 · 1211 阅读 · 0 评论 -
大数据技术——DataX的使用与优化
DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQLOracle等HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。原创 2024-08-10 11:42:01 · 936 阅读 · 0 评论 -
大数据项目——实战项目:广告数仓(第二部分)集群环境部署
Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等,下面说明上述几个文件之间的关系和区别。因为hadoop102未外配置的是NameNode,hadoop103配置的是ResourceManager,都要求对其他节点无密访问。因此不管是login shell还是non-login shell,启动时都会加载/etc/profile.d/*.sh中的环境变量。而当我们执行以下命令。原创 2024-08-10 08:51:33 · 1260 阅读 · 0 评论 -
大数据技术——Hadoop运行环境搭建
注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。使用linux上面的工具yum下载epel软件库中的软件的时候,默认访问的是国外的地址,所有最好修改为国内的仓库地址,下载速度会显著提升。④将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件。(2)查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8。原创 2024-08-08 23:29:08 · 1351 阅读 · 0 评论 -
大数据技术——模板虚拟机环境准备
我们先配置电脑,再安装系统。原创 2024-08-08 14:16:28 · 1165 阅读 · 0 评论 -
大数据项目——实战项目:广告数仓(第一部分)数据仓库设计流程
数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。维度模型由数据仓库大师Ralph Kimball提出,其核心思想是将复杂的业务通过事实和维度两个概念进行呈现。事实通常对应业务过程,而维度通常对应业务过程发生时所处的环境。注。原创 2024-08-06 17:25:08 · 1870 阅读 · 0 评论 -
大数据项目——广告数仓之HTTP概述
其实还有一个东西叫做DNS(域名解析系统),它其实是一些互联网厂商提供的一个把域名解析为ip地址的服务(它有一个域名和ip地址对应关系的表),而且DNS服务器的IP地址是事先写到路由器或上游网络设备的设置里的。这个时候,香港城市大学的服务器又往后找了几条新闻,返回到了你的浏览器上。假如这是香港城市大学的一台服务器,这台服务器上提供了一个web服务,所谓服务,其实就是一个24小时运行在服务器上的程序。最后,需要说明,域名是有专门的机构进行管理的,当你注册cityu.edu.hk这个域名时,别人就不能注册了。原创 2024-08-06 17:17:29 · 1258 阅读 · 0 评论 -
【Hadoop】--基于hadoop和hive实现聊天数据统计分析,构建聊天数据分析报表[17]
BI:Business Intelligence,商业智能。指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行分析以实现商业价值。简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。所以,一般提到BI,我们指代的就是工具软件。FineBISuperSetPowerBITableAu详细的finebi的介绍与安装可跳转到【Hadoop】-FineBI的介绍及安装[16]阅读。原创 2024-05-04 11:55:08 · 5524 阅读 · 8 评论 -
【Hadoop】-FineBI的介绍及安装[16]
FineBI的介绍:https://www.finebi.com/FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。原创 2024-05-04 11:54:03 · 660 阅读 · 0 评论 -
【Hadoop】-Apache Hive使用语法与概念原理[15]
大数据体系下,在真正的企业环境中,很容易出现很大的表,比如体积达到TB级别。对这种表一个简单的SELECT * 都会非常的慢,哪怕LIMIT 10想要看10条数据,也会走MapReduce流程 这个时间等待是不合适的。在大数据中,最常用的一种思想就是分治,我们可以把大的文件分割成一个个小的文件,这样每次操作一个小的文件就会很容易了。否则,将引发架构错误。分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。----如果数据在本地,需要带local,如果在hdfs就不用带了。原创 2024-04-24 18:16:44 · 649 阅读 · 3 评论 -
【Hadoop】-Hive客户端:HiveServer2 & Beeline 与DataGrip & DBeaver[14]
DataGrip是由JetBrains公司推出的数据库管理软件,DataGrip支持几乎所有主流的关系数据库产品,如DB2、Derby、MySQL、Oracle、SQL Server等,也支持几乎所有主流的大数据生态圈SQL软件,并且提供了简单易用的界面,开发者上手几乎不会遇到任何困难。3、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。5、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。原创 2024-04-24 17:23:25 · 2970 阅读 · 3 评论 -
【Hadoop】-Hive初体验[13]
INSERT INTO test values(1,'海员','男'),(2,'林芝零','女'),(3,'雷恩斯','男');可以执行:bin/hive,进入到Hive Shell环境中,可以直接执行SQL语句。打开YARN的WEB UI页面查看任务情况:http://node1:8088。Hive的数据存储在HDFS的:/user/hive/warehouse中。预先确保已经完成部署Hive,并启动了Metastore服务。原创 2024-04-23 19:13:30 · 545 阅读 · 0 评论 -
【Hadoop】-Hive部署[12]
Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2。后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &支持,Hive的配置已经完成,现在在启动Hive前,需要先初始化Hive所需的元数据库。原创 2024-04-23 16:52:13 · 1548 阅读 · 2 评论 -
【Hadoop】-Apache Hive概述 & Hive架构[11]
对数据进行统计分析,SQL是目前最为方便的编程工具。大数据体系中充斥着非常多的统计分析场景所以,使用SQL去处理数据,在大数据中也是有极大的需求的。但我们hadoop里边的MapReduce支持程序开发(Java、python),但不支持SQL开发。如果有一个什么办法,让我们大数据体系内支持SQL的话,这样就好办了。那怎么样支持呢?这就是我们的了。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。原创 2024-04-22 23:07:46 · 705 阅读 · 1 评论 -
【Hadoop】-拓展:蒙特卡罗算法求PI的基础原理[10]
Monte Carlo算法的基本思想是:以模拟的“实验”形式、以大量随机样本的统计形式,来得到问题的求解。如图,我们在正方形内,随机落点,统计落在1/4圆内的点和总店数量的比例即可得到1/4的PI,最终乘以4即可得到PI。比如,红色点的数量比全部点的数量,结果是0.756,那么乘以4就可以得到3.06,3.06就是求得的PI。原创 2024-04-22 23:08:14 · 345 阅读 · 0 评论 -
【Hadoop】- MapReduce & YARN 初体验[9]
1、Hadoop自带的MapReduce示例程序的代码jar包是2、使用什么命令提交MapReduce程序到YARN中执行?hadoop jar 命令语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]3、如何查看程序运行状态在YARN WEB页面查看。原创 2024-04-21 23:13:45 · 2511 阅读 · 1 评论 -
【Hadoop】- MapReduce & YARN的部署[8]
MapReduce和YARN的配置文件修改好后,需要分发到其他的服务器节点中。MapReduce运行在YARN容器内,无需启动独立进程。2、mapred-site.xml文件,添加如下配置信息。分发完成配置文件,就可以启动YARN的相关进程啦。有3台服务器,其中node1配置较高。即可查看YARN集群的监控页面。文件,添加如下环境变量。原创 2024-04-21 20:17:19 · 1669 阅读 · 0 评论 -
【Hadoop】- YARN架构[7]
Yarn架构是一个用于管理和调度Hadoop集群资源的系统。它是Hadoop生态系统的一部分,主要用于解决Hadoop中的资源管理问题。通过使用Yarn架构,Hadoop集群中的不同应用程序可以共享集群资源,并根据需要动态分配和回收资源。这种灵活的资源管理能力可以提高集群的利用率和性能。原创 2024-04-21 16:01:23 · 1218 阅读 · 0 评论 -
【Hadoop】- YARN概述[6]
1、YARN是做什么的?YARN是Hadoop的一个组件用以做集群的资源(内存、CPU等)调度2、为什么需要资源调度将资源统一管控进行分配可以提高资源利用率3、程序如何在YARN内运行程序向YARN申请所需资源YARN为程序分配所需资源供程序使用4、MapReduce和YARN的关系YARN用来调度资源给MapReduce分配和管理运行资源所以,MapReduce需要YARN才能执行。原创 2024-04-21 14:48:03 · 602 阅读 · 1 评论 -
【Hadoop】- MapReduce概述[5]
MapReduce是一种分布式计算框架,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并行处理。每个节点执行"map"函数,将输入数据转换为一组键值对。这些键值对将进行洗牌和排序,并将生成的中间数据发送到"reduce"函数。"reduce"函数将中间数据进行处理,将其合并为最终结果或输出。它根据所需的计算或分析对数据进行聚合和分析。原创 2024-04-21 13:45:18 · 624 阅读 · 1 评论 -
【Hadoop】-HDFS的存储原理[4]
HDFS的存储原理是将大文件切分成固定大小的数据块,并在集群中的不同节点上存储数据块的,以提高数据的可靠性和性能。同时,HDFS采用流式的数据读写方式,减少了寻址的开销,提高了数据的传输效率。原创 2024-04-20 23:31:08 · 1728 阅读 · 4 评论 -
【Hadoop】-HDFS的Shell操作[3]
Hadoop Distributed File System (HDFS) 是一个分布式文件系统,用于存储和处理大规模数据集。HDFS具有高可扩展性、高容错性和高吞吐量的特点,是Apache Hadoop框架的核心组件之一。HDFS提供了一个命令行界面(Shell),用于管理和操作文件系统中的文件和目录。使用HDFS的Shell,用户可以执行各种文件系统操作,如创建目录、上传文件、下载文件、删除文件等。HDFS的Shell操作类似于Linux的命令行操作,用户可以使用一系列命令来完成各种操作。原创 2024-04-19 20:08:17 · 1582 阅读 · 1 评论 -
【Hadoop】-HDFS集群环境部署[2]
workers: 配置从节点(DataNode)有哪些hadoop-env.sh 配置Hadoop的相关环境变量core-site.xml: Hadoop核心配置文件hdfs-site.xml: HDFS核心配置文件这些文件均存在于$HADOOP_HOME/etc/hadoop文件夹中ps:$HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即/export/server/hadoop。原创 2024-04-13 23:13:49 · 1251 阅读 · 5 评论 -
【hadoop】-VMware虚拟机系统设置[1]
后续大数据的软件,将不会以root用户启动(确保安全,养成良好的习惯),我们为大数据的软件创建一个单独的用户Hadoop,并为三台服务器同样配置hadoop用户的免密互通。3、在每一台机器均切换到hadoop用户:su -hadoop,并执行ssh-keygen -t rsa -b 4096,创建SSH密钥。大数据的很多软件的运行都需要有Java运行环境的支持,所以我们在三台服务器上,预先都部署好JDK环境。修改三台虚拟机分别为node1,node2,node3,并修改IP分别为101,102,103。原创 2024-04-10 18:49:52 · 718 阅读 · 2 评论