
大数据
文章平均质量分 71
闫哥大数据
终有一天,我会爬上一座高坡,看到不一样的风景,转身,告诉身边的人,我发现了什么。
B站账号:闫哥大数据 资料QQ3 群 :523554921
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
datax急速入门教程(保姆级)
mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。原创 2025-03-17 21:51:46 · 705 阅读 · 0 评论 -
大数据技术之Flink优化
Flink 针对不同的设置为 RocksDB 提供了一些预定义的选项集合,其中包含了后续提到的一些参数,如果调整预定义选项后还达不到预期,再去调整后面的 block、writebuffer 等参数。当前支持的预定义选项有 DEFAULT、SPINNING_DISK_OPTIMIZED、SPINNING_DISK_OPTIMIZED_HIGH_MEM 或 FLASH_SSD_OPTIMIZED。有条件上 SSD 的,可以指定为 FLASH_SSD_OPTIMIZED#设置为机械硬盘+内存模式。原创 2025-03-16 22:34:06 · 1004 阅读 · 0 评论 -
大数据技术之Spark优化
由于 Spark SQL 所在 stage(阶段) 的并行度无法手动设置,如果数据量较大,并且此 stage(阶段) 中后续的 transformation 操作有着复杂的业务逻辑,而 Spark SQL 自动设置的 task(任务) 数量很少, 这就意味着每个 task(任务) 要处理为数不少的数据量,然后还要执行非常复杂的处理逻辑,这就可能表现为第一个有 Spark SQL 的 stage(阶段) 速度很慢,而后续的没有 Spark SQL 的 stage(阶段) 运行速度非常快。原创 2025-03-14 23:22:54 · 877 阅读 · 0 评论 -
Hive中没有超级管理员,如何进行权限控制
修改,hive-site.xml,将编写好的类路径配置到xml中,并且指定超级用户为hadoop。Hive中没有超级管理员,任何用户都可以进行Grant/Revoke操作。重启metastore,然后重新尝试,看普通用户是否可以创建一个表。创建一个项目,导入mavan jar包,然后开始编写hook类。接着,将其打包,放入hive 的lib 文件夹下。开发实现自己的权限控制类,确保某个用户为超级用户。比如任何用户都可以grant 权限给别的用户。测试发现,hadoop用户可以进行授权操作。原创 2025-01-16 14:05:35 · 656 阅读 · 0 评论 -
CDH、HDP和CDP傻傻分不清楚
实际上 CDH是 Cloudera 公司的代表产品,HDP是 Hortonworks 公司的代表产品。两家公司都是围绕着大数据平台做发行版,他们在2019年1月进行了正式合并,形成了新的 Cloudera 公司。CDP 是原先两个最好的企业级数据分析Q平台 CDH 和 HDP 融合在一起,同时增加一些新的功能,形成的一个新平台。CDH/HDP 这两个产品比他们的公司在市场上更加广为流传。CDH: ClouderaManager 中先创建一个集群,集群里面可以选择使用什么 CDH,付费版的需要上传许可证。原创 2025-01-16 09:59:16 · 740 阅读 · 0 评论 -
Flink教程-keyby 窗口数据倾斜的优化(转发)
对于这种简单的数据倾斜,我们可以通过对分组的key加上随机数,再次打散,分别计算打散后不同的分组的pv数,然后在最外层再包一层,把打散的数据再次聚合,这样就解决了数据倾斜的问题。在这个sql的最内层,将分组的key,也就是plat加上一个随机数打散,然后求打散后的各个分组(也就是sql中的plat1)的pv值,然后最外层,将各个打散的pv求和。在这个sql里,我们统计一个网站各个端的每分钟的pv,从kafka消费过来的数据首先会按照端进行分组,然后执行。如果某一个端产生的数据特别大,比如我们的。原创 2025-01-01 20:33:54 · 421 阅读 · 0 评论 -
基于Doris实时数据开发的一些注意事项(转发)
所以我们有一个定性的结论,在亿级(或者数千万)数据规模以下,可以使用类似Doris这种的分析引擎,仿照离线数据一样进行分层和定时调度,处理大窗口数据(一般时间跨度超过30天),在保证性能的前提下,降低实时数据的开发成本,并且极大提高了数据的可观测性,开发。在更多的情况下,基于Flink的实时数据开发难度要显著高于离线任务(二者根本不在一个数量级),基于Doris的存储实时数据开发可以显著降低开发门槛,但是存在滥用的可能。上面几点是一些优势,但是基于Doris的这种方案也存在明显的短板,需要大家特别注意!原创 2024-12-29 19:15:35 · 560 阅读 · 0 评论 -
数仓行为域常见指标之归因分析
归因分析重在一个结果的产生可能是行为1也可能是行为2,那么行为1和行为2 对于达成这个结果的贡献度是多少呢?需要分析。而漏斗:事件1和事件2之间肯定是有关系的,而归因分析中事件1和事件2是没什么必然的联系的。按如所示:在做一些运营活动,广告投放后,都需要去评估活动或者广告的效应;我们的销量、拉新等业务目标,在广告投放或者运营活动组织后,有了明显的提升,但是这些提升是否是因为广告、运营活动导致的,需要有数据支撑!这些数据分析,就属于事件归因分析的范畴!原创 2024-12-11 15:31:14 · 1082 阅读 · 0 评论 -
MySQL中timestamp 和 datetime区别
timestamp 类型的取值范围是 '1970-01-01 00:00:01' UTC 到 '2038-01-19 03:14:07' UTC。- datetime 类型的取值范围是 '1000-01-01 00:00:00' 到 '9999-12-31 23:59:59'。- timestamp 存储的值会受到时区的影响,它会将存储的值转换为 UTC 时间,并在检索时再转换回当前时区的时间。展示的格式是年月日时分秒。- datetime 存储的值不受时区影响,它会以原始值存储和检索。原创 2024-12-10 20:59:39 · 629 阅读 · 0 评论 -
指标体系这个概念的剖析
在日常生活中,想把一个事情说清楚是非常不容易的,比如你在金融公司工作,工作过程中可能会听到这样的话,本月申请贷款审批怎么这样严格,10000 人申请贷款吧,感觉好多都被拒绝了,咱们银行也太严格了吧。这样的话,闲聊还行,但是如果你向领导汇报工作,就不能这样说了,而应该如下表述:截至到 12 月 10 日,共有 10000 份申请贷款的请求,实际通过审批的有 2000 人,审核通过率 20%。原创 2024-12-10 18:07:59 · 1000 阅读 · 0 评论 -
基于最新的Apache StreamPark搭建指南
官方文档Github地址Apache StreamPark™ 是一个流处理应用程序开发管理框架,旨在轻松构建和管理流处理应用程序,提供使用 Apache Flink® 和 Apache Spark™ 编写流处理应用的开发框架和一站式实时计算平台,核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。为什么要使用 StreamPark 呢?它降低了学习成本和开发障碍,开发人员可以专注于业务逻辑。原创 2024-12-09 18:24:20 · 1604 阅读 · 0 评论 -
spark关联hive 报 Filesystem Close 错误
我的环境是pyspark,pyspark中操作hive,使用datagrip关联spark,在datagrip中进行查询没有问题,但只要insert into 就报:FileSystem Close错误,如何处理呢?然后使用datagrip等第三方工具进行连接,再执行以前的sql就不抱错了。假如我想将一个sql语句插入hive表中时,比如。原创 2024-12-09 14:25:31 · 490 阅读 · 0 评论 -
Flink学习连载文章13--FlinkSQL高级部分
说明创建窗口的时候,使用的字段不是时间字段,需要写成时间字段TIMESTAMP(3),使用了eventtime需要添加水印,否则报错。2、kafka 对接的 server,写全 bigdata01:9092,bigdata02:9092,bigdata03:9092。需求:按照滚动窗口和EventTime进行统计,每隔1分钟统计每个人的消费总额是多少。窗口分为滚动和滑动,时间分为事件时间和处理时间,两两组合,4个案例。需求:每隔1分钟统计这1分钟的每个用户的总消费金额和消费次数。原创 2024-12-07 22:14:19 · 932 阅读 · 0 评论 -
Flink学习连载文章12--FlinkSQL
因为DataStream中是Row 类型,所以打印的格式是Row 这个类中的toString方法决定的。这个地方的 +I 的意思是新增的数据。toAppendStream: 适用于生成新的计算结果,并不会对老的计算结果进行修改。从Kafka的topic1中消费数据并过滤出状态为success的数据再写入到Kafka的topic2。从Kafka的topic1中消费数据并过滤出状态为success的数据再写入到MySQL。以下内容是FlinkSQL的全新的方式,更加简单高效。Table风格/DSL风格。原创 2024-12-07 22:08:43 · 792 阅读 · 0 评论 -
在企业中如何保证数据安全(大数据方向)
1、数据安全,可以从几个层面去保障,首先是物理安全,比如可靠的机房,防火,防水,严格的安全管理和监控,防止别人共计机房和恶意访问终端节点,接着放着网络安全,防止非法人员进入,我们可以使用软件或者硬件来保障访问服务器的安全性,比如使用openVPN等vpn工具,或者工作机上插入一些U盾之类的设备才能访问服务器节点。第三点也是最重要的一点,做好数据的备份和恢复,防止数据丢失或者硬盘损坏带来的问题,对所有的数据进行访问权限的控制。原创 2024-12-06 17:11:29 · 447 阅读 · 0 评论 -
手把手教你搭建Redis集群
需要注意的是,Redis集群在实现上是一个相对复杂的系统,需要一些配置和管理的工作。例如,需要设置节点间的通信和复制机制,以及监控和管理集群的状态。因此,在使用Redis集群时,建议参考Redis官方文档或其他相关资源,以确保正确配置和操作集群。小伙伴们大家好,上一次给大家发了一个手把手教你使用哨兵模式搭建redis主从模式之后,收到了很多小伙伴的催更,让我出一个搭建Redis的教程,那么它来了!第九步:创建集群的意思。原创 2024-12-04 22:22:25 · 375 阅读 · 0 评论 -
Neo4J-图数据库入门
Neo4j是一种基于图形数据库模型的开源图形数据库管理系统。它专注于存储和处理图形数据结构,如节点、关系和属性,以提供高效的图形数据查询和分析功能。基于硬盘为什么要使用对数据的需求不在局限于对数据本身的获取,还需要获取数据与数据件的关系(就是连接数据)简单来说,图数据库主要用于存储更多的连接数据。原创 2024-12-04 22:20:47 · 1236 阅读 · 0 评论 -
阿里云中Flink提交作业流程
有些程序,是需要环境的,假如数据需要依赖我们虚拟机的环境,是没办法在flink上运行的,因为flink访问不到虚拟机的服务,可以写死一些数据,比如自定义数据源,或者写死一些数据,进行测试。访问阿里云首页面:https://www.aliyun.com/查看创建的工作空间,当工作空间状态为运行中时,点击控制台。可以选择SQL开发或者作业运维运行自己的Flink程序。作业运维在本地IDEA开发,将jar包上传。通过选择区域,看哪个区域有虚拟交换机。原创 2024-12-02 18:12:14 · 650 阅读 · 0 评论 -
Python脚本实现datax全量同步mysql到hive
在我们构建离线数仓时或者迁移数据时,通常选用sqoop和datax等工具进行操作,sqoop和datax各有优点,datax优点也很明显,基于内存,所以速度上很快,那么在进行全量同步时编写json文件是一项很繁琐的事,是否可以编写脚本来把繁琐事来简单化,接下来我将分享这样一个mysql全量同步到hive自动生成json文件的python脚本。原创 2024-12-01 19:59:08 · 480 阅读 · 0 评论 -
Maxwell的入门实战
Maxwell 是美国 Zendesk 开源,用Java 编写的 Mysql 实时抓取软件。实时读取 mysql 的二进制日志 Binlog,并生成 JSON 格式的信息,做为 生产者 发送 给 Kafka、Kinesis、RabbitMQ、Redis、Goodle Cloud Pub/Sub、文件 或 其他平台的应用程序。官网:常用的就是,将 MySQL 的数据 同步到 hdfs 上注意:也可以通过 sqoop 编写脚本的方式将 mysql的数据同步的hdfs上 (离线)原创 2024-12-01 19:55:01 · 1301 阅读 · 0 评论 -
一键生成数据库对应的所有DataX的json文件
Datax是一个非常优秀的数据导入导出工具,想必小伙伴们都使用过,但是今天老板说:小张,你把mysql中的所有表都导入到hive的ods层,这该怎么办?一张表对应一个json文件,这不得写一个月?我们可以通过python编写一个脚本来实现,说干就干。原创 2024-12-01 19:53:17 · 507 阅读 · 0 评论 -
impala入门与实践
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。原创 2024-11-27 20:51:44 · 1780 阅读 · 0 评论 -
Yarn中多队列的配置以及更换公平调度器
首先为什么要配置多队列呢?当我们使用 yarn 的时候,一个任务提交后,另一个任务也提交,有可能第二个任务提交成功了,但是迟迟不运行,原因是我们默认的调度器,只有一个队列,队列中假如有一个大任务,会阻塞后面的小的任务的运行。提交第二个任务:所以我们需要调整 yarn 的队列,要么更换调度器,要么添加队列,以下根据两个情况,分别进行演示。原创 2024-11-26 16:36:38 · 1601 阅读 · 0 评论 -
Flink学习连载文档6--Window的分类
按照指定的数据条数生成一个Window,与时间无关。滚动计数窗口,每隔N条数据,统计前N条数据滑动计数窗口,每隔N条数据,统计前M条数据按照时间生成Window。(重点)滚动时间窗口,每隔N时间,统计前N时间范围内的数据,窗口长度N,滑动距离N滑动时间窗口,每隔N时间,统计前M时间范围内的数据,窗口长度M,滑动距离N,按照会话划定的窗口流是连续的,无界的(对于这个问题,肯定是无法回答的,为何?因为,统计是一种对固定数据进行计算的动作。原创 2024-11-25 22:04:54 · 878 阅读 · 0 评论 -
Flink学习连载文章5--Flink的各种Sink操作
jdbcSink官方已经提供过了,此处仅仅是模拟它的实现,从而学习如何自定义sink/*** @基本功能:* @author: 闫哥**/@Data@Override// 这个里面编写连接数据库的代码)");@Override// 关闭数据库的代码ps.close();@Override// 将数据插入到数据库中。原创 2024-11-24 22:17:59 · 890 阅读 · 0 评论 -
Flink学习连载文章4-flink中的各种转换操作
关于分区,很多技术都有分区:1、hadoop 有分区2、kafka 有分区3、spark 有分区4、hive 有分区使用用户定义的Partitioner 为每个元素选择目标任务/*** @基本功能:* @author: 闫哥**/@Overridereturn 0;return 1;public class _11_自定义分区规则 {//1. env-准备环境@Override});// 每一个分区的数据量有多少@Override。原创 2024-11-22 17:55:52 · 939 阅读 · 1 评论 -
Flink学习连载文章3-Flink中各种Source源
基于本地集合的source(Collection-based-source)基于文件的source(File-based-source)基于网络套接字(socketTextStream)在flink最常见的创建DataStream方式有四种:l 使用env.fromElements(),这种方式也支持Tuple,自定义对象等复合形式。注意:类型要一致,不一致可以用Object接收,但是使用会报错,比如:env.fromElements("haha", 1);原创 2024-11-22 08:42:55 · 1346 阅读 · 0 评论 -
Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)
使用Flink编写代码,步骤非常固定,大概分为以下几步,只要牢牢抓住步骤,基本轻松拿下:1. env-准备环境2. source-加载数据3. transformation-数据处理转换4. sink-数据输出5. execute-执行。原创 2024-11-21 11:52:18 · 1691 阅读 · 0 评论 -
Flink学习连载文档第一篇--Flink集群的安装
Flink支持多种安装模式。local(本地)——本地模式standalone——独立模式,Flink自带集群,开发测试环境使用standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产环境测试。原创 2024-11-21 09:45:39 · 845 阅读 · 0 评论 -
hadoop集群搭建
web访问:namenode 在哪一台,就访问哪一台。分发mapred-site.xml & yarn-site.xml 到另外两台电脑上。目前有两台,克隆第一台(因为第一台上安装了hadoop), 克隆结束后,进行修复操作。路径:/opt/installs/hadoop/etc/hadoop。1) 修改IP 2) 修改主机名 3)修改映射文件hosts。继续配置:为了防止报AppMaster的错误,需要如下配置。修改完了第一台的配置文件,开始分发到其他两台上去。6、修改linux的⼀个安全机制。原创 2024-11-20 08:45:21 · 748 阅读 · 0 评论 -
Linux设置以及软件的安装(hadoop集群安装02)
快照就是将来可以恢复,以及可以clone(克隆) 的基础,记得先关机, 再克隆。因为我们想将来操作某台服务器,不想通过IP操作,想通过用户名操作。1、创建一个文件夹,用于存放安装包 /opt/modules。假如检查了IP,发现没IP,也没有虚拟网卡,怎么办?点击虚拟机的编辑界面,点击【虚拟网络编辑器】,进入后,将你的hostname 跟 IP 进行一个对应。将软件解压到/opt/installs。思考:为什么号段是从128开始的呢?6、刷新配置文件,让配置文件生效。7、验证配置是否生效。原创 2024-11-20 08:39:59 · 534 阅读 · 0 评论 -
大数据环境已经搭建好的虚拟机的使用(毕设\学习\测试)
1、该虚拟机必须使用 Vmware17 打开,低版本是不可以的。请检查自己的 vmware 版本2、我们的虚拟机使用的 CentOS7.5 mini 版本的。3、虚拟机的 IP 已经设定为 192.168.233.131 这个固定 IP,不要修改4、该 linux 主机的主机名为 shucang5、该虚拟机使用的是 NAT 模式的6、安装的所有软件都在 /opt/installs 下面。原创 2024-11-20 08:33:11 · 635 阅读 · 0 评论 -
Kettle精讲(非常全面,建议收藏慢慢看)
Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。KDE源于最开始的计划是在K Desktop Environment(www.kde.org)上开发这个软件,但这个计划被取消。原创 2024-11-19 21:56:07 · 2826 阅读 · 0 评论 -
《数据挖掘与数据分析》课程设计培训讲义
现在是互联网的时代, 每个人的生活中都会使用到互联网的各种应用, 我们会进行网络购物, 会进行新闻浏览, 视频浏览, 微信聊天等等, 当我们在使用互联网的时候, 我们的所有的数据都需要通过运行商(电信, 移动,联通)进行数据的发送和接收, 对于每一个访问, 运营商都可以获取到对应的请求信息, 我们可以通过对网络请求的信息分析, 及时掌握互联网的动态和行业前沿, 并且根据用户的请求访问数据, 我们可以分析互联网行业的发展现状和每个城市的互联网的发展程度等等. 通过对于互联网的发展的相关指标分析, 可以为政府部原创 2024-11-19 21:51:04 · 929 阅读 · 0 评论 -
CDH大数据平台搭建
全称Cloudera’s Distribution Including Apache Hadoop。hadoop的版本 (Apache、CDH、Hotonworks版本)在公司中一般使用cdh多一些(收费的)、也有公司使用阿里云大数据平台、微软的大数据平台。国内也有一些平台:星环大数据,一个朋友的公司(优刻得UCloud)ClouderaManager : 简称 CM (CDH的管理界面)。Cloudera Manager是用于管理CDH群集的端到端应用程序。原创 2024-11-19 21:44:54 · 1573 阅读 · 0 评论 -
使用python操作kafka
以上案例是通过python操作kafka,将一些模拟数据发送到kafka中。第一步:安装kafka的模块。原创 2024-11-14 19:30:15 · 745 阅读 · 0 评论 -
如何使用python操作redis
第一步:需要安装redis模块。原创 2024-11-14 19:27:00 · 133 阅读 · 0 评论 -
使用java代码消费kafka数据
kafka发送者代码中,指定发送分区号为1,所以只有分区1中有数据,你可以使用消费者消费分区1的数据,别的分区没有数据。效果是,消费者消费的消息都是一个分区的,因为使用了粘性分区的原因。示例二:使用java代码消费kafka指定分区数据。示例一:使用java代码消费kafka所有数据。首先创建maven项目,导入jar包。原创 2024-11-11 15:10:04 · 2302 阅读 · 0 评论 -
SparkCore中常见面试题
coalesce(根据情况) join( fullOuterJoin / leftOuterJoin / rightOuterJoin)3、哪些算子能触发shuffle过程。原创 2024-11-09 17:59:39 · 97 阅读 · 0 评论 -
windows下安装hadoop开发环境
接着在 windows 的 C:\windows\system32 目录下,也粘贴以上两个补丁包,更加的保险,有些同学需要粘贴,有些不需要。原创 2024-11-09 16:33:23 · 320 阅读 · 0 评论