- 博客(286)
- 收藏
- 关注

原创 面试系列之:spark中常用经典算子的源码剖析
1:使用cogroup实现join cogroup 算子初探:这是一个用途很广泛的算子在底层实现上 val appName = this.getClass.getSimpleName.dropRight(1) val spark = SparkSession.builder().master("local[*]").appName(appName).getOrCreate() val map1 = Seq('a' -> 1, 'b' -> 2, 'c' ->.
2020-09-15 16:15:43
372

原创 面试系列之:dynamic allocate executor 我为什么不建议你使用
dynamic allocate executor 感觉好拽的能力,动态分配哦,好腻害的样子噢。万事大家,妈妈再也不用担心我到底该配置多少 资源合适了,又保住了好几根银发。面试官再问我我是如何估计资源的,我就把这个参数甩她胸口~真的是这样子的吗?现实真的是这么美好吗?你是第一天出来混吗?这个在官网上有但是没被我看到过的参数,真的那么好用吗?看我口型 NO你以为公司的...
2020-02-18 20:23:46
283
原创 OBU和T-Box
OBU和T-Box都是车联网和智能交通系统中的重要设备,但它们的功能和应用场景有所不同。OBU主要用于ETC收费和车联网V2X通信,支持车路协同和智能交通管理;而T-Box则更侧重于车辆数据采集、远程控制、安全与辅助驾驶等功能。随着技术的发展,两者的功能可能会逐渐融合,共同推动智能交通和车联网的发展。OBU(On-Board Unit,车载单元)和T-Box(Telematics Box,远程信息处理控制单元)都是用于车联网和智能交通系统的车载设备,但它们的功能、应用场景和技术特点存在显著差异。
2025-01-22 21:45:00
1676
原创 新能源监控平台都管理哪些数据
北理新源信息科技有限公司(简称“北理新源”)依托北京理工大学电动车辆国家工程研究中心,建设和运营了“新能源汽车国家监测与管理平台”。该平台是国家级的新能源汽车数据监管平台,主要负责对新能源汽车的运行数据进行采集、监测和管理。北理新源的“新能源汽车国家监测与管理平台”是国家级的新能源汽车数据监管平台,涵盖了车辆基本信息、运行状态、电池状态、充电数据、故障与安全数据、能耗与排放数据等多个维度。这些数据不仅用于安全监管和政策支持,还为行业研究和技术发展提供了重要的数据基础。
2025-01-22 21:00:00
511
原创 StarRocks-hive数据类型导致的分区问题
有个hive的表,是月分区的(month_id),分区字段用的是string类型。数据量比较大,为了保证计算性能,所以把数据导入到SR里,构建一个内部表。但是在建表的时候想使用月分区使用partition by date_trunc('month', month_id),遇到一个问题,month_id在hive里是string类型并且是yyyyMM的格式,无法顺利建表。
2024-12-10 23:00:00
477
原创 StarRocks-同步hive-textfile格式数据
官方文档对csv,orc ,json ,parquet都支持的比较好。写文章的时候SR我们生产用的是3.1.x版本。
2024-11-28 23:00:00
464
原创 StarRocks-join优化
有两个大表,都是6kw级别上下的,通过SR然后包装了一个接口对外提供查询,当前的问题是,这样大的join查询会导致BE直接宕机。这个表是个单分区,所以直接查全表没啥问题。最后其实是要输出的是limit 10。我这里是模拟两个表之间的join操作,看下profile。扫描的数据大大减少,还是很牛的,欢迎交流。那么这个limit 10能否下推呢?2. profile日志。看profile就更炸裂了。查询不到一秒出结果。查询不到一秒出结果。
2024-11-27 22:30:00
315
原创 Hive-定时清理无用的临时表
方案比较简单粗暴,如果想要友好一些的,可以做rename处理,比如把表名加上trash,或者把每日待删除的表先发一个邮件给到开发的小伙伴,确认无误之后再最物理删除。具体情况根据团队的实际情况来定即可。
2024-11-26 22:30:00
630
原创 车联网-CDN科普
CDN是一种帮助互联网内容更快、更稳定传递的技术,类似于在你身边设立了一个“小商店”,使得获取内容变得更加便捷。CDN确实会消耗内存和磁盘资源,主要用于缓存用户请求的内容。这些缓存存在于分布在各地的边缘节点中,旨在提高访问速度和系统稳定性。通过有效的缓存策略,CDN可以优化资源利用,确保内容高效地传递给用户。
2024-11-02 22:30:00
528
原创 starrocks-删除表字段
之前做了个大宽表,将近100个字段,但是后来发现很多字段在实际生产上都没有用到,并且随着数据量的增加,给集群的存储以及消费任务的解析带来了比较大的压力。所以决定对字段做删除处理。当前的表是使用routine load任务从kafka消费数据,为了不影响线上的服务,所以我们最终的方案是保留字段,但是在routine load任务里只消费需要的字段。但是为了搞清楚对于一个已经有大量数据的表删除字段的影响,单独起了个表做了个测试。
2024-10-12 22:45:00
661
原创 datax编译报错解决方案
降低maven的版本到3.8.8,更低版本的没试过。其他的任何东西都不用动。我用的是jdk1.8 、maven是3.9.9。进入到你的项目所在的根目录执行即可。
2024-10-11 21:45:00
784
原创 kafka之protobuf
编写.proto文件:定义消息结构,包括字段类型、名称和编号。使用protoc编译:将.proto文件编译为目标语言代码,如 Java、Python、Go 等。使用生成的类:使用生成的类进行消息的序列化(转换为二进制格式)和反序列化(解析二进制数据)。
2024-09-15 21:30:00
1889
原创 kafka之视频和图片文件
在 Kafka 中存储视频或图片的格式通常取决于应用场景和传输的需求。Kafka 是一种分布式的流处理平台,设计用来处理事件流或消息流,。
2024-09-14 23:00:00
1706
原创 车联网数仓建设
综上所述,车联网数仓建设独有的内容包括车辆数据采集与处理、车辆状态监测与故障诊断、驾驶行为分析与驾驶安全、车辆路况与交通流量分析、车辆定位与导航服务、车辆保险与风险评估等方面。:车联网数仓需要处理大量的车辆数据,包括车辆传感器数据、车辆位置数据、车辆行驶数据等。:车联网数仓可以分析车辆的实时位置数据,以及道路上的交通情况,包括路况、交通拥堵情况等。:车联网数仓可以分析车辆的行驶数据和驾驶行为数据,为车辆保险公司提供风险评估和定价依据。:车联网数仓可以存储和管理车辆的位置数据,支持车辆定位和导航服务。
2024-04-07 23:45:00
1036
原创 hive-高效生成全局唯一字典
常见的方式:hive里最常用的方式生成唯一id,就是直接使用 row_number() 来进行,这个对于小数据量是ok的,但是当数据量大的时候会导致,数据倾斜,因为最后生成全局唯一id的时候,这个任务是放在一个reduce里进行的,数据量过大会有很大的瓶颈。优化的方式:主体的思想就是先分再合,参考下一个思路:这个思路是借鉴了一篇文章的思路:附上链接:bitmap用户分群方法在贝壳DMP的实践和应用_架构_侯学博_InfoQ精选文章我是只想用sql来做具体的实现,如何实现最好
2023-11-29 22:45:00
1419
原创 Flink Table API 和 SQL 需要引入的依赖
两个 Bridge:flink-table-api-scala-bridge 和 flink-table-api-java-bridge,flink-table-api-scala:这里只是非常薄的一层,仅和 Table API 的 Expression 和 DSL 相关。两个 Planner:flink-table-planner 和 flink-table-planner-blink。flink-table-api-java:这部分是用户编程使用的 API,包含了大部分的 API。
2023-10-21 10:30:00
926
原创 sqoop 脚本密码管理
生产上很多sqoop脚本的密码都是铭文,很不安全,找了一些帖子,自己尝试了下,记录下细节,使用的方式是将密码存在hdfs上然后在脚本里用别名来替代。
2023-10-11 23:45:00
657
原创 Kafka参数之auto.offset.reset
前言:之所以要说下这个参数是因为,在做kafka和流式框架整合的时候,这个参数经常会被设置。之前发现自己理解的其实不到位,对于一些现象不能够很好的解释,后来才发现自己对于这个参数的理解有偏差,所以记录下。常用取值的含义:earliest当各分区下有已提交的offset时,从提交的offset开始消费;无提交的offset时,从头开始消费latest当各分区下有已提交的offset时,从提交的offset开始消费;无提交的offset时,消费新产生的该分区下的数据还需要注意的就是
2022-02-13 12:37:33
1679
原创 hive之mapjoin
hive 的mapjoin起作用了我们如何确定?只是inner join 的时候看日志吧,最为直观:2021-12-10 12:05:41 Starting to launch local task to process map join; maximum memory = 9547284482021-12-10 12:05:44 Processing rows: 200000 Hashtable size: 199999 Memory usage: 135058920 percentage:
2021-12-11 11:00:00
2557
原创 flink-watermark 是什么?
1: watermark 是流里的一个特殊的元素,这个不是我说的,看源码的注释:public final class Watermark extends StreamElement {然后我们看看StreamElement的注释里:An element in a data stream. Can be a record or a Watermark.2:watermark 是要配合我们的窗口来使用的,且我们要使用的时间语义这个时候是事件时间,watermark 通过决定何时关闭窗口来做到
2021-12-08 22:35:50
262
转载 使用 Git 在错误的分支上修改了代码怎么办?
个人学习使用,直接上链接原文链接吧:https://mp.weixin.qq.com/s/c4F0QQd6ZvuhJC0Sv0YktQ我们知道,在使用 Git 的时候,应该要正确使用它的分支(Branch)功能。不同的功能使用不同的分支开发,最后合并进入主分支。但有时候会出现这样一种情况——我代码都已经写完了,才发现我写错分支了。这个时候,怎么把我的修改迁移到目标分支上,并且不修改现在正在使用的分支?我们用一个简单的例子来说明这种情况。首先创建一个文件夹:test_git,并且在里面创建
2021-07-21 10:27:38
1424
原创 Spark 生成hfile然后使用bulk load 方式导入到HBase
需求背景:公司的spark集群和hbase集群是两个互不相通的集群,所以我们的方式就是先用spark 生成hfile 然后再通过distcp 的方式把数据cp到HBase所在的集群,然后再通过bulk的方式把数据导入到HBase中关键性的疑问点:Q1:我生成的hfile如何和表里的各种设置想对应呢?比如说:我的table 设置了 bf 设置了snappy 压缩算法,等等,这些在我们生成hfile的时候是应该都要完成的操作。这些东西我们是如何指定的呢?关键角色登场:HFileOutpu
2021-05-23 10:00:28
769
1
原创 hive -分号(;)在数据处理中带来的问题
1:遇到的问题:我在处理一个数据的时候,想把数据转为map形式,但是发现总是报错。NoViableAltException(114@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.function(HiveParser_IdentifiersParser.java:4628) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.at
2021-05-17 15:07:52
548
1
原创 记一次jar包冲突导致的问题
1:现象:我在本地运行的时候总是报错,这个错误经过我的排查是和引入的hbase的依赖有关系。报错如下:Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C at org.apache.spark.SSLOptions$$anonfun$8.apply(SSLOptions.scala:188) a
2021-05-06 14:52:57
551
2
原创 kafka的消息分发机制
kafka是如何决定把某条信息发送到哪个partition的呢?源码kafka的版本: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.0.1</version> </dep
2020-11-06 16:52:53
562
原创 Spark 图解 Backend 通信
主要的组件就是两个: CoarseGrainedSchedulerBackend extends SchedulerBackend CoarseGrainedExecutorBackend extendsExecutorBackend DriverEndPoint
2020-10-10 16:41:43
324
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人