Anchororor-优快云博客

原创大数据相关技术问题集

阿里云平台的核心组件有哪些？如何利用 MaxCompute 进行大规模数据计算？在我使用阿里云平台的时候，主要用到的组件是 DataWorks,其核心组件包括以下四个部分：数据集成、(数据开发)DataStudio、运维中心(工作流)、数据地图。在数据集成部分，我会根据业务需求，确定数据源，在目标数据源建表，实现数据的导入。在数据开发部分，会根据业务需求进行分层建设。在运维中心，会进行作业状态监看，补数据等操作。在数据地图，我会查看数据表之间的血缘关系，权限等。

2025-03-05 10:02:42 935

原创基于 TDengine 的农机田路分割和宽表建设

1.在TDengine 中使用 Python 实现的自定义聚合函数（UDAF）创建一个在 TDengine 中使用 Python 实现的自定义聚合函数（UDAF），用于按 vehicle_id 和日期对纬度（latitude）和经度（longitude）进行 DBSCAN 聚类，随后对每个聚类执行 α-形状分析，计算聚类点所占面积、边界点坐标及中心点坐标，并将结果以 JSON 字符串的形式返回。以下是详细的中文指南，涵盖如何编写 Python UDAF、注册该函数以及在 SQL 中使用它。任务概述

2025-01-02 22:08:06 1642

原创车联网大数据中心架构设计

车辆上安装了各种类型的传感器，用于监测车辆运行状态、环境数据、和驾驶行为。这些传感器的主要作用包括：发动机状态监测：如转速、温度、燃油消耗等。环境感知：如雷达、摄像头、LIDAR，用于识别周围环境。驾驶员行为监测：如座椅压力传感器、方向盘力矩传感器。安全功能监测：如胎压监测（TPMS）、刹车系统状态。这些传感器实时采集的数据需要一个统一的终端设备处理和传输。

2025-01-02 18:20:52 2097

原创 CDH离线数仓实操-Hive on Spark/Spark on Yarn

再次尝试运行上述程序，发现运行失败，是因为本机是基于VMWARE的伪分布式环境，每个yarn节点配置的核心数和内存空间无法满足spark作业的要求，根据报错修改Yarn配置（注意每个节点都要修改）。Hive CLI使用Thrift协议连接到远程Hiveserver1实例。通过xftp工具，把本机的文件拖到 slave1 节点的 /home/my_flight 下。HIVE默认使用MR作为计算引擎，在HIVE中执行。在CDH的HIVE中选择计算引擎为Spark。，其中/user/tmp/为hdfs中的路径。

2025-01-02 17:03:12 1469

原创 Flink 实践练习-筛选纽约地区的taxi

从代码中可以看到，source 和 sink已经实现，框架也已经实现好，需要做的只是实现fileter方法。每个项目里有exercise和solution，solution是已经实现的方法。这个和maven是类似的，但是更新，实现的功能更多也更简洁。在vscode中使用git方法。

2025-01-02 17:01:37 181 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据相关技术问题集

原创 基于 TDengine 的农机田路分割和宽表建设

原创 车联网大数据中心架构设计

原创 CDH离线数仓实操-Hive on Spark/Spark on Yarn

原创 Flink 实践练习-筛选纽约地区的taxi

空空如也

空空如也

原创大数据相关技术问题集

原创基于 TDengine 的农机田路分割和宽表建设

原创车联网大数据中心架构设计