墨尔本、晴-优快云博客

原创 [大数据]Debug：常见错误集合

叶子队列是这个层级结构中最底层的队列，它们没有子队列，因此作业必须提交到叶子队列。原因：这意味着你尝试将你的作业提交到一个非叶子队列。在YARN中，队列有。3. 在yarn-site.xml中修改默认的调度器为容量调度器。1. hadoop 提交作业时，指定队列名。2. hive提交作业时，指定队列名。

2024-09-03 00:55:08 406

原创 [算法] 推荐系统算法需求

7.完成商城个人中心值得买推荐模型的开发和部署。2.完成商城首页猜你喜欢推荐模型的开发和部署。1.完成商城首页搜索页推荐模型的开发和部署。9.完成商城品牌旗舰店推荐模型的开发和部署。3.完成商城金刚位推荐模型的开发和部署。4.完成商城分类页推荐模型的开发和部署。5.完成商城落地页推荐模型的开发和部署。6.完成商城购物车推荐模型的开发和部署。8.完成商城秒杀推荐模型的开发和部署。

2025-03-27 10:30:48 99

原创 [DeepSeek]二、大模型

大模型，全称[大语言模型]，Large Language Model，缩写LLM，是一种基于机器学习和自然语言处理技术的模型，他通过对大量的文本数据进行训练，来学习服务人类语言理解和生成的能力。对话产品和基座大模型实际上是两个东西。

2025-02-20 22:00:31 223

原创 [DeepSeek]一、DeepSeek+Dify创建工作流

取好一个名字：test1 之后，添加“文档提取器”，大模型没有办法直接处理文档，因此添加一个“文档提取器”的节点。文档提取器 --> 输入变量（input），为开始节点设置的变量。最后添加一个结束节点，一条工作流就完成了。开始节点 -> 选择"单文件"作为输入。创建工作流：文档总结规划。

2025-02-19 00:28:22 1166

原创 [Go]一、Go语言基础

G:\Go\【物语终焉】21周搞定Go语言。

2025-02-04 22:24:39 1041

原创 [离线数仓] 总结三、Hive数仓DIM层开发

DIM层设计要点：（1）DIM层的设计依据是维度建模理论，该层存储维度模型的维度表。（2）DIM层的数据存储格式为orc列式存储+snappy压缩。（3）DIM层表名的命名规范为dim_表名_全量表或者拉链表标识（full/zip）。

2025-01-10 23:11:31 946

原创 [离线数仓] 总结二、Hive数仓分层开发

- ODS 层 Operate Data Store--存储从MySQL业务数据库和日志服务器的日志文件中采集到的数据-- 日志数据：JSON格式-- 业务数据：-- 全量：DataX，TSV格式，"fieldDelimiter": "\t",-- 增量：Maxwell，JSON格式-- 汇总数据：希望用最少得资源存储更多的数据。

2025-01-08 22:04:35 958 1

服务名称子服务服务器hadoop111服务器hadoop112服务器hadoop113HDFSNameNode√DataNode√√SecondaryNameNode√YarnResourcemanager√NodeManager√√ZookeeperZookeeper Server√√√Flume（采集日志）Flume√KafkaKafka√√√Flume（Kafka日志）Flume√Flume（Kafka业务）Flume√Hive√MySQLMySQL√DataX√Spark√√√DolphinSche

2024-12-29 00:14:52 798

原创 [Hive]七 Hive 内核

10. Hive 提交任务到Yarn。3. Hive SQL解析过程。4. MapReduce原理。6. MetaStore模块。11. HiveSQL调优。7. Hive元数据说明。2. Hive运行过程。8. Hive权限说明。

2024-12-28 14:54:53 534

原创 [大数据]Hudi编译集成

1）安装Maven（1）上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录，并解压更名（2）添加环境变量到/etc/profile中（3）测试安装结果mvn -v2）修改为阿里镜像（1）修改setting.xml，指定为阿里仓库地址。

2024-12-10 15:36:17 531

原创 [大数据]Hudi

Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据聚簇/压缩优化和并发，同时保持数据的开源文件格式。Hudi的高级性能优化，使分析工作负载更快的任何流行的查询引擎，包括Apache Spark、Flink、Presto、Trino、Hive等。2021 年：支持 Uber 500PB 数据湖，SQL DML、Flink 集成、索引、元服务器、缓存。也可以从github下载： https://github.com/apache/hudi/

2024-12-09 21:39:47 918

原创 [大数据]Trino

下载地址: repo1.maven.org/maven2/io/trino/

2024-11-21 22:37:13 319

原创 [大数据] Iceberg

Spark中支持两种Catalog的设置：hive和hadoop，Hive Catalog就是Iceberg表存储使用Hive默认的数据路径，Hadoop Catalog需要指定Iceberg格式表存储路径。这种情况下不能使用Iceberg的分区转换，例如：days(timestamp)，如果想要使用Iceberg格式表的分区转换标识分区，需要使用Spark或者Flink引擎创建表。例如，如果按天划分分区，而改为按小时划分分区，那么覆盖将覆盖每小时划分的分区，而不再覆盖按天划分的分区。

2024-11-20 23:55:10 1301

原创 [HBase]二 HBase原生Shell命令大全

HBase原生Shell命令汇总1. General组 51.1. 查看集群状态：status 51.2. 查看表的操作方法：table_help 51.3. 查看HBase的版本信息：version 51.4. 查看当前用户：whoami 52. Namespace组 52.1. 创建命名空间：create_namespace 52.2. 显示命名空间列表：list_namespace 5。

2024-10-24 11:16:55 568

原创 [Hbase]一 HBase基础

HBase数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map指代非关系型数据库的 key-Value结构。

2024-10-10 11:10:29 1290

原创 [Java]16.反射_注解

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:21:28 190

原创 [Java]15.JDK新特性

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:20:36 180

原创 [Java]14.设计模式

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:19:59 144

原创 [Java]13.正则表达式

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:19:26 141

原创 [Java]12.网络编程

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:18:52 151

原创 [Java]11.IO流

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:18:05 171

原创 [Java]10.集合

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:17:28 163

原创 [Java]9.多线程

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:16:58 149

原创 [Java]8.常用API

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:16:12 136

原创 [Java]7.异常处理

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:15:34 152

原创 [Java]6.面向对象

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:14:07 138

原创 [Java]1.Java入门(1~5)

2.变量_类型转换_运算符。1.Java入门介绍。

2024-09-25 23:11:10 212

原创 [Java]一、面向对象核心编程思想

（1）父类是怎么形成的：将多个类中相同的代码提取出来放到一个类中，这个类被称为父类，其他的类可以直接继承这个父类，这样就可以使用父类中的内容。（2）继承关键字：extends（3）注意事项：a. 子类可以继承父类中私有和非私有成员，但是不能使用父类中私有成员b. 构造方法不能继承（4）继承怎么理解使用：a. 继承不要从是否“拥有”方面来理解，要从是否能“使用”的方面来学习。b. 定义一个父类，在其中定义重复性代码；定义一个子类继承父类-> 子类 extends 父类。

2024-09-25 22:31:25 663

原创 [Python]二、Python基础数据科学库（1）

1956年-达特茅斯会议-人工智能的起点人工智能和机器学习、深度学习的关系：1. 机器学习是人工智能的一个实现途径2. 深度学习是机器学习的一个方法发展而来定义：机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。机器学习是一个通过算法和统计学方法，从大量数据中自动发现模式、学习规律并构建模型的过程。这些模型可以用于对未知数据进行预测、分类或决策，从而实现自动化和智能化的应用。数据。

2024-09-22 13:11:37 1036

原创 [Python]一、Python基础编程（3）

封装：保护对象的内部状态，通过公共方法进行交互。继承：允许子类继承和扩展父类的功能，促进代码重用。多态：通过相同的接口处理不同类型的对象，提高代码的灵活性和可扩展性。这三大特征共同构成了面向对象编程的基础，使得软件设计更加模块化、可维护和易于扩展。在 Python 中，多态指的是不同类的实例可以使用相同的方法名，但实现的方式可以不同。通过这种方式，程序可以更灵活地处理不同类型的对象。python复制raise NotImplementedError("子类必须实现这个方法")python复制。

2024-09-22 01:24:20 1880

原创 [Python]一、Python基础编程（2）

Python2中类分为：经典类和新式类在 Python 2 中，类分为经典类（Classic Class）和新式类（New Style Class）。这两者在继承、方法解析顺序（MRO）和其他特性上有所不同。以下是它们的详细说明和示例。### 1. 经典类（Classic Class）经典类是 Python 2 中最早的类类型，通过不继承任何其他类来定义。这种类没有显式的继承基类。#### 示例```python# 创建实例。

2024-09-22 00:51:02 1297

原创 [Python]一、Python基础编程（1）

学习成本低开源适应人群广泛应用领域广泛。

2024-09-18 00:49:21 979

原创 [离线数仓]一、用户行为采集平台

用户行为日志的内容，主要包括用户的各项。

2024-09-08 17:32:19 1313

原创 [测试]1.TPC-DS性能测试

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark了解数据查询和分析的性能表现_对象存储(OSS)-阿里云帮助中心 (aliyun.com)

2024-09-07 00:17:30 872 1

原创 [Hive]五、Hive 源码编译

G:\Bigdata\2.hive\大数据技术之Hive源码编译。

2024-09-02 23:42:39 1292

原创 [C语言]二、C语言基础（精炼）

gcc -vgcc-std上面命令指定按照 C99 标准进行编译，c11，c17,c23。c89或ansi：代表C语言的早期标准，也称为ANSI C或C89标准，于1989年发布。：代表C语言的2011年标准版本，也称为C11标准。：代表C语言的2017年标准版本，也称为C17标准。：GNU扩展了ANSI C标准的一部分。：GNU扩展了C99标准的一部分。：GNU扩展了C11标准的一部分。1. 计算机高级语言程序的运行方法有编译执行和解释执行两种，以下叙述中正确的是（　　）。

2024-08-30 00:38:55 1084

原创 [Hive]四、Hive On Tez

用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿色是Reduce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。2）拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/software目录。Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升作业的计算性能。3）将apache-tez-0.9.1-bin.tar.gz上传到HDFS的/tez目录下。下面创建一个tez-site.xml文件。

2024-08-26 21:43:46 1207

原创 [C++]一、C++基础编程

G:\Cpp\2023版C++教程C++语言程序设计第一部分基础篇一、什么是C++1.1 C++ 简介C++ 是一门非常经典的高级编程语言。顾名思义，C++可以看做是C语言的增强版，在C的基础上扩展了更多的功能；最主要的扩展，就是面向对象和泛型编程。因此C++融合了多种不同的编程方式：以C语言为代表的面向过程编程；面向对象编程；以及模板化的泛型编程。可以说，C++一门“大而全”的编程语言，你可以用它实现想要的任何功能；与此同时，学习C++需要掌握的内容也会比较多。1.1.1

2024-08-26 00:18:12 7184 4

原创 [C语言]一、C语言基础（06.文件操作）

文件，对我们并不陌生，文件是数据源（保存数据的地方）的一种，比如大家经常使用的word文档，txt文件，excel文件，avi文件...都是文件。文件最主要的作用就是保存数据，它既可以保存一张图片，也可以保持视频，声音...C程序中，对于文件中数据的输入/输出操作以“流(stream)” 的方式进行，可以看做是一种数据的流动。输入流：数据从数据源(比如:文件)到程序(或内存)的流动过程。输出流：数据从程序(或内存)到数据源(比如:文件)的流动过程。

2024-08-25 23:49:45 999

原创 [C语言]一、C语言基础（05.常用函数）

p＝"ABCDE"；这样做以后，数组变量的地址还是不变的，即 strcpy() 只是在原地址写入新的字符串，而不是让数组变量指向新的地址。【解析】首先该程序符合语法规则，因此不会编译时产生错误，其次字符数组str1和str2都为指针常量，将他们直接用关系运算符进行比较肯定是不相等的，但是它们所指的字符串是相等的，因此最后输出Unequal。strncat() 总是会在拼接结果的结尾，自动添加空字符′\0′ ，所以第三个参数的最大值，应该是 str1 的变量长度减去 str1 的字符串长度，再减去 1。

2024-08-25 23:46:04 1062

大数据三、Hadoop-MapReduce

空空如也