
大数据
文章平均质量分 65
大数据海中游泳的鱼
大数据海中游泳的鱼,对Spark、Hadoop、HDFS、Kafka、Hive、HQL、SQL都有兴趣。
展开
-
DolphinScheduler操作步骤
2)上传工作流所需脚本 : 将工作流所需的所有脚本上传到资源中心scripts路径下。(1)切换到 admin 用户,在环境管理下创建环境。(1)在gmall项目下创建工作流。(2)在环境配置中添加如下内容。(2)各任务节点配置如下。原创 2023-04-19 21:31:33 · 580 阅读 · 0 评论 -
DW每层设计要点
(3)DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期(1d/nd/td)(3)DWD层表名的命名规范为dwd_数据域_表名_单分区增量全量标识(inc/full)(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(1)DWD层的设计依据是维度建模理论,该层存储维度模型的事实表。原创 2023-04-19 21:13:04 · 590 阅读 · 0 评论 -
大数据集群规划、规模、版本、端口号
3.客户端尽量放在1到2台服务器上,一是风险隔离,导致集群内部受到不必要的干扰。2)每条日志1K左右,每天1亿条: 100000000/1024/1024 = 约100G。假设每台服务器8T磁盘,128G内存。3)一年内不扩容服务器来算: 100G * 360天 = 约36T。5)预留20%~30%Buf = 108T/0.7 = 154T。2.kafka、ZK、Flume传输数据比较紧密的放在一起。1)每台日活跃用户100万,每人一天平均100条: 100万。6)算到这: 约 8T*20 台服务器。原创 2023-04-11 22:46:33 · 692 阅读 · 0 评论 -
Flink是什么
其中,JobManager和TaskManager进程是Flink的核心进程,负责实际的任务执行和作业管理。Flink是一个分布式的、高性能的、可伸缩的、容错的流处理引擎,它支持批处理和流处理,并提供了丰富的API和库,是实时数据处理的理想选择。JobManager进程:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;JobManager:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;3.数据流的状态,包括数据的读取速率、处理速率、输出速率等;原创 2023-04-11 22:15:01 · 3977 阅读 · 0 评论 -
HQL中的JOIN操作
Hive支持多种JOIN方式将多个表连接起来,从而进行复杂的查询操作,包括INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN、CROSS JOIN和SELF JOIN等。在Hive中,可以使用SELF JOIN方式进行递归查询,从而查询出某个节点的所有子节点或父节点等信息。其中,子查询部分查询出初始条件下的员工信息,使用UNION ALL和JOIN子查询部分进行递归查询。查询结果中,包含每个下属员工的姓名和深度等信息,深度表示该员工相对于初始条件员工的层数。原创 2023-04-19 00:15:00 · 887 阅读 · 0 评论 -
HQL中ACID表
在Hive中,ACID(原子性、一致性、隔离性和持久性)表是指支持事务的表。ACID表在执行INSERT、UPDATE、DELETE等操作时,会自动创建一个事务,确保操作的原子性、一致性、隔离性和持久性。同时,ACID表还支持快照读取和多版本并发控制等功能,可以提高数据的访问效率和安全性。原创 2023-04-10 23:34:02 · 270 阅读 · 0 评论 -
HQL大杂烩
HQL(Hive Query Language)是Hive提供的一种类SQL的查询语言,用于在Hive中查询和处理数据。HQL语言类似于SQL语言,支持常用的SQL查询操作,比如SELECT、FROM、WHERE、GROUP BY、ORDER BY等,同时也支持Hive特有的查询操作,比如分区查询、桶排序等。Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop分布式文件系统(HDFS)上,并提供类SQL查询接口,用户可以使用HQL语言查询和分析数据。原创 2023-04-10 23:28:31 · 373 阅读 · 0 评论 -
什么是Presto
Presto是一个分布式SQL查询引擎,由Facebook开发并开源。它广泛应用于互联网、金融、电信等领域,是一个非常优秀的分布式数据处理引擎。原创 2023-04-10 23:02:36 · 484 阅读 · 0 评论 -
Spark SQL实现数据脱敏和加密(python)
下面代码实现对姓名和电话号码的脱敏:使用Spark的函数和函数对姓名和电话号码进行了脱敏,并将自定义的脱敏函数和注册为UDF函数。然后,在读取数据后,使用函数将脱敏后的姓名和电话号码替换原有的列,并将脱敏后的数据保存到目标路径。Spark SQL的Python版也可以使用库来实现数据加密。下面实现对姓名和电话号码的加密:上述代码中,使用Spark SQL的函数对姓名进行了加密,使用自定义的加密函数对电话号码进行加密,并将加密后的数据保存到目标路径。其中,加密函数使用了库中的类,该类提供了AES加密算法的原创 2023-04-10 22:58:56 · 739 阅读 · 0 评论 -
大数据环境中,已经有了HDFS了为什么还需要HBase 系统
HBase系统支持快速的随机读取和聚合查询,并且还可以与Hadoop生态系统中的其他工具(如Hive、Pig和Spark)集成,使得它能够进行实时的数据分析和处理。,适合存储海量的非结构化和半结构化数据,并提供了快速的、实时的访问和查询功能。因此,当需要快速读写海量非结构化数据、需要灵活的数据模型、需要高可扩展性和容错性、以及需要实时查询和分析时,HBase系统会比HDFS更适合。:HBase采用了面向列的数据模型,支持动态的列族和列的添加、删除和修改,使得它能够存储和处理非常灵活的数据结构。原创 2023-04-10 22:53:38 · 985 阅读 · 0 评论 -
Spark处理非结构化数据的思路(python实现)
我们首先初始化了Spark环境,然后使用Spark的textFile方法将文本数据导入到Spark中进行处理。然后使用sklearn库的TF-IDF算法进行特征提取,并使用KMeans算法进行数据聚类分析。最后,使用Matplotlib库生成了聚类结果的散点图。接着使用NLTK库对文本数据进行清洗,去除了停用词。原创 2023-04-10 22:49:47 · 706 阅读 · 0 评论 -
什么是Tableau(BI工具)
Tableau是一款商业智能工具,用于数据可视化和分析。它可以通过简单易用的界面和交互式的视图来探索和分析数据,帮助用户快速发现数据中的模式和趋势,并支持数据驱动的决策和行动。原创 2023-04-16 00:00:00 · 658 阅读 · 0 评论 -
什么是Flume
Flume是Apache基金会下的一个分布式、可靠、高可用的日志采集系统,主要用于从不同的数据源(如Web服务器、数据库、应用程序等)中采集大量的数据,并将其传输到Hadoop或其他存储系统中。Flume的主要作用是实现大规模数据采集和传输,实现数据的实时处理和分析,从而为企业提供更好的业务决策支持。原创 2023-04-09 23:58:52 · 507 阅读 · 0 评论 -
jps命令
当Hadoop集群中出现故障时,可以通过jps命令来查找故障的进程,并排除故障。原创 2023-04-09 23:53:28 · 5080 阅读 · 0 评论 -
什么是JMX
JMX(Java Management Extensions)是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。JMX是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。在使用JMX时,需要定义和注册MBean,启动MBean Server和MBean Client,并监控相关指标,以确保Java应用程序的稳定和高效运行。原创 2023-04-09 23:48:31 · 653 阅读 · 0 评论 -
JVM是什么
使用JIT编译器:使用JIT编译器可以优化JVM的执行速度,将Java字节码编译成本地机器代码,以提高程序的执行效率。使用合适的数据结构:使用合适的数据结构可以减少JVM的内存使用率和CPU使用率,以便提高程序的性能和响应速度。调整GC策略:调整GC策略可以优化JVM的垃圾回收,包括选择合适的GC算法、调整GC的频率和GC的参数等。运维人员:负责管理JVM的部署、维护和安全性,包括JVM的配置、监控和优化等。避免创建过多的对象:避免创建过多的对象可以减少GC的负载,提高程序的执行效率。原创 2023-04-09 23:45:16 · 1070 阅读 · 0 评论 -
什么是Power BI
BI管理员:管理Power BI的部署、维护和安全性,包括用户管理、数据源管理和报表发布等,以保证Power BI的正常运行和数据的安全性。数据分析师:使用Power BI进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等,以实现数据的探索和发现。IT管理员:管理Power BI所依赖的IT基础设施,包括网络、服务器、存储等,以保证Power BI的性能和可靠性。数据分析师:负责使用Power BI进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等。原创 2023-04-09 23:42:19 · 2953 阅读 · 0 评论 -
Kettle是什么(ETL工具)
它可以用于从不同的数据源中提取数据、进行转换和加载到目标数据源中。Kettle支持多种数据源的操作,如关系型数据库、NoSQL数据库、文件等,同时也支持多种数据操作任务的实现,如数据清洗、数据整合、数据分析等。原创 2023-04-15 14:15:00 · 4726 阅读 · 1 评论 -
什么是Sqoop
开发人员:编写Sqoop导入导出任务,包括数据源的选择、数据转换和数据的输出方式,以实现数据在Hadoop和关系型数据库之间的传输。Sqoop是Hadoop生态系统中的一个重要组件,它可以帮助用户轻松地将现有的数据导入到Hadoop中,方便后续的数据分析和处理。此外,Sqoop是Hadoop生态系统中的一个重要组件,它可以与Hadoop集成使用,提高Hadoop的数据处理能力。运维人员:监控Sqoop的运行状态,包括任务的执行情况、数据传输速率等,以及对Sqoop进行故障排除和性能优化。原创 2023-04-15 00:15:00 · 1110 阅读 · 0 评论 -
什么是Kafka
Kafka是一款高吞吐量的分布式消息队列系统,能够处理大量的实时数据。它可以将数据持久化到磁盘,同时支持数据的发布和订阅,是一种可靠的、高效的消息传递系统。Kafka是一款高吞吐量的分布式消息队列系统,支持消息的发布和订阅,并提供了多种客户端库和API。在使用Kafka时,需要配置Producer和Consumer以及Kafka Broker,并监控相关指标,以确保Kafka集群的稳定和高效运行。原创 2023-04-13 12:45:00 · 478 阅读 · 0 评论 -
什么是Prometheus
Prometheus是一款开源的监控和告警系统,可以对分布式系统进行监控和警报。它是一个独立于存储的时序数据管理系统,可帮助您轻松地查询、分析和警报有关应用程序的数据。Prometheus具有强大的查询语言和可视化工具,可帮助您快速了解系统的运行状况。云原生可使用睿智云(付费)。原创 2023-04-13 00:15:00 · 376 阅读 · 0 评论 -
Spark SQL是什么
1.Spark SQL应用程序的运行状态:可以通过Spark SQL的监控工具来实时监控应用程序的运行状态,包括任务的执行情况、资源的使用情况等。运维人员:管理Spark集群的部署、维护和安全性,包括Spark SQL的配置、监控和优化等,以保证Spark SQL的正常运行和安全性。2.Spark SQL应用程序的性能:可以通过Spark SQL的监控工具来监控应用程序的性能指标,包括任务的执行时间、吞吐量等。Executor进程:负责执行Spark SQL应用程序中的任务,包括数据的读取、处理和写入等。原创 2023-04-10 23:06:29 · 470 阅读 · 0 评论 -
什么是SPARK
Spark是一款基于内存计算的开源分布式计算框架,支持批处理、流处理和机器学习等各种计算模式。它可以在Hadoop集群中运行,也可以独立运行。原创 2023-04-06 23:02:02 · 881 阅读 · 0 评论 -
什么是Zookeeper
Zookeeper是一个开源的分布式协调服务,它可以提供诸如配置管理、命名服务、分布式同步、组服务等功能。在Hadoop集群中,Zookeeper主要用于协调管理分布式锁和监控Hadoop集群的状态。Apache 顶级项目之一。原创 2023-04-06 22:59:07 · 947 阅读 · 0 评论 -
什么是Ambari
Ambari是一个开源的Hadoop管理工具,提供了一个Web界面来管理和监控Hadoop集群的各个组件。Hadoop定级项目之一。原创 2023-04-06 22:50:27 · 691 阅读 · 0 评论 -
什么是HBase
HBase是一个基于Hadoop的分布式列式存储系统,可以存储非结构化和半结构化的大数据,具有高可用性、高扩展性、高性能等特点,常用于大规模实时数据处理。原创 2023-04-10 23:45:36 · 1865 阅读 · 0 评论 -
什么是YARN
YARN原创 2023-04-06 22:43:31 · 882 阅读 · 0 评论 -
什么是HQL
Hadoop管理员:管理Hadoop集群的部署、维护和安全性,包括用户管理、数据源管理和HQL查询优化等,以保证Hadoop集群的正常运行和数据的安全性。数据分析师:使用HQL进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等,以实现数据的探索和发现。优化查询语句:优化查询语句可以减少查询的响应时间,包括使用合适的查询条件、减少不必要的表连接和使用索引等。调整查询计划:调整查询计划可以优化查询性能,包括使用合适的分区、调整数据分布和使用合适的并行度等。原创 2023-04-06 22:37:07 · 2639 阅读 · 0 评论 -
什么是Hive
Hive是基于Hadoop的数据仓库工具,可以通过类SQL语言HiveQL来查询和分析集群中的大规模数据,并将查询转换成MapReduce任务进行执行。Hive支持多种数据源,包括HDFS、HBase、本地文件等,是一个强大的数据分析工具。原创 2023-04-06 22:30:34 · 144 阅读 · 0 评论 -
什么是Hadoop
Hadoop是一个开源的分布式计算平台,可以处理大规模数据集并提供高可靠性、高可扩展性、高效性等特性。Hadoop由HDFS(分布式文件系统)和MapReduce(分布式计算框架)两部分组成,同时还包括YARN、Zookeeper等组件。原创 2023-04-06 22:24:37 · 1678 阅读 · 0 评论 -
大数据海中的鱼(大目录)
大数据组件和概念,作为目录使用原创 2023-04-06 22:33:47 · 150 阅读 · 0 评论 -
Hadoop集群中常用组件的命令(后续补充)
提交Spark应用程序:spark-submit --class com.example.Application /path/to/app.jar arg1 arg2。上传本地文件到HDFS:hdfs dfs -put /path/to/local/file /path/to/hdfs/directory。下载HDFS文件到本地:hdfs dfs -get /path/to/hdfs/file /path/to/local/directory。原创 2023-04-12 00:15:00 · 524 阅读 · 0 评论 -
大数据离线分析的完整流程
大数据分析大概流程,和对应的组件原创 2023-04-16 00:15:00 · 1772 阅读 · 0 评论 -
Hadoop集群JVM指标监控(python)
笨办法监控hadoop集群原创 2023-04-05 15:09:24 · 659 阅读 · 0 评论 -
Hive数据倾斜
任务进度长时间维持在99%(100%),查看任务监控页面(通过HPM、HSJO、HSJD、HSJR等监控工具),发现只要少量(1个或几个)reduce子任务未完成。通常情况下,JOIN操作在Reduce阶段执行表连接,整个JOIN过程包含Map、Shuffle、Reduce三个阶段。(在大表和一个或多个小表JOIN的场景下,MAPJOIN会将您指定的小表全部加载到执行JOIN操作的程序的内存中,因此指定的表仅能为小表。Hive的默认Input Split是128MB(可配置),小文件可先合并成大文件。原创 2023-04-05 14:33:19 · 271 阅读 · 0 评论 -
Spark中常用的压缩方法(python:Gzip、Snappy、LZO、Bzip2 )
Spark中常用的压缩方法有Gzip、Snappy、LZO、Bzip2等。原创 2023-04-05 13:06:59 · 1956 阅读 · 0 评论 -
Spark SQL进行数据处理和分析中可能遇到的问题以及性能优化思路
Spark SQL进行数据处理和分析中可能遇到的问题以及性能优化思路。原创 2023-04-05 12:57:59 · 927 阅读 · 0 评论 -
RDD的创建方式(Python)
【代码】RDD的创建方式(Python)原创 2023-04-05 12:49:02 · 832 阅读 · 0 评论 -
PySpark中RDD的行动操作(行动算子)
以上是pyspark中所有行动操作(行动算子)的详细说明,了解这些操作可以帮助理解如何使用PySpark进行数据处理和分析。方法将结果转换为包含一个元素的DataSet对象,从而得到一个DataSet对象,其中只包含一个名为。方法将结果转换为包含该整数的RDD对象,从而得到一个RDD对象,其中只包含一个元素6。例如,对于一个包含整数的RDD,可以使用以下代码来判断。对于一个包含字符串的RDD,可以使用以下代码来判断。的列,该列的值为DataFrame中的行数。在上面的代码中,我们使用。原创 2023-04-11 00:15:00 · 703 阅读 · 0 评论 -
Spark实现读取关系型数据库数据并保存在HDFS(python)
【代码】Spark实现读取关系型数据库数据并保存在HDFS(python)原创 2023-04-05 12:44:43 · 1084 阅读 · 0 评论