- 博客(5)
- 收藏
- 关注
原创 大数据相关技术问题集
阿里云平台的核心组件有哪些?如何利用 MaxCompute 进行大规模数据计算?在我使用阿里云平台的时候,主要用到的组件是 DataWorks,其核心组件包括以下四个部分:数据集成、(数据开发)DataStudio、运维中心(工作流)、数据地图。在数据集成部分,我会根据业务需求,确定数据源,在目标数据源建表,实现数据的导入。在数据开发部分,会根据业务需求进行分层建设。在运维中心,会进行作业状态监看,补数据等操作。在数据地图,我会查看数据表之间的血缘关系,权限等。
2025-03-05 10:02:42
935
原创 基于 TDengine 的农机田路分割和宽表建设
1.在TDengine 中使用 Python 实现的自定义聚合函数(UDAF)创建一个在 TDengine 中使用 Python 实现的自定义聚合函数(UDAF),用于按 vehicle_id 和日期对纬度(latitude)和经度(longitude)进行 DBSCAN 聚类,随后对每个聚类执行 α-形状分析,计算聚类点所占面积、边界点坐标及中心点坐标,并将结果以 JSON 字符串的形式返回。以下是详细的中文指南,涵盖如何编写 Python UDAF、注册该函数以及在 SQL 中使用它。任务概述
2025-01-02 22:08:06
1642
原创 车联网大数据中心架构设计
车辆上安装了各种类型的传感器,用于监测车辆运行状态、环境数据、和驾驶行为。这些传感器的主要作用包括:发动机状态监测:如转速、温度、燃油消耗等。环境感知:如雷达、摄像头、LIDAR,用于识别周围环境。驾驶员行为监测:如座椅压力传感器、方向盘力矩传感器。安全功能监测:如胎压监测(TPMS)、刹车系统状态。这些传感器实时采集的数据需要一个统一的终端设备处理和传输。
2025-01-02 18:20:52
2097
原创 CDH离线数仓实操-Hive on Spark/Spark on Yarn
再次尝试运行上述程序,发现运行失败,是因为本机是基于VMWARE的伪分布式环境,每个yarn节点配置的核心数和内存空间无法满足spark作业的要求,根据报错修改Yarn配置(注意每个节点都要修改)。Hive CLI使用Thrift协议连接到远程Hiveserver1实例。通过xftp工具,把本机的文件拖到 slave1 节点的 /home/my_flight 下。HIVE默认使用MR作为计算引擎,在HIVE中执行。在CDH的HIVE中选择计算引擎为Spark。,其中/user/tmp/为hdfs中的路径。
2025-01-02 17:03:12
1469
原创 Flink 实践练习-筛选纽约地区的taxi
从代码中可以看到,source 和 sink已经实现,框架也已经实现好,需要做的只是实现fileter方法。每个项目里有exercise和solution,solution是已经实现的方法。这个和maven是类似的,但是更新,实现的功能更多也更简洁。在vscode中使用git方法。
2025-01-02 17:01:37
181
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人