- 博客(86)
- 收藏
- 关注

原创 [大数据]Debug:常见错误集合
叶子队列是这个层级结构中最底层的队列,它们没有子队列,因此作业必须提交到叶子队列。原因:这意味着你尝试将你的作业提交到一个非叶子队列。在YARN中,队列有。3. 在yarn-site.xml中修改默认的调度器为容量调度器。1. hadoop 提交作业时,指定队列名。2. hive提交作业时,指定队列名。
2024-09-03 00:55:08
406
原创 [算法] 推荐系统算法需求
7.完成商城个人中心值得买推荐模型的开发和部署。2.完成商城首页猜你喜欢推荐模型的开发和部署。1.完成商城首页搜索页推荐模型的开发和部署。9.完成商城品牌旗舰店推荐模型的开发和部署。3.完成商城金刚位推荐模型的开发和部署。4.完成商城分类页推荐模型的开发和部署。5.完成商城落地页推荐模型的开发和部署。6.完成商城购物车推荐模型的开发和部署。8.完成商城秒杀推荐模型的开发和部署。
2025-03-27 10:30:48
99
原创 [DeepSeek]二、大模型
大模型,全称[大语言模型],Large Language Model,缩写LLM, 是一种基于机器学习和自然语言处理技术的模型,他通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。对话产品和基座大模型实际上是两个东西。
2025-02-20 22:00:31
223
原创 [DeepSeek]一、DeepSeek+Dify创建工作流
取好一个名字:test1 之后,添加“文档提取器”,大模型没有办法直接处理文档,因此添加一个“文档提取器”的节点。文档提取器 --> 输入变量(input),为开始节点设置的变量。最后添加一个结束节点,一条工作流就完成了。开始节点 -> 选择"单文件"作为输入。创建工作流:文档总结规划。
2025-02-19 00:28:22
1166
原创 [离线数仓] 总结三、Hive数仓DIM层开发
DIM层设计要点:(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(2)DIM层的数据存储格式为orc列式存储+snappy压缩。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)。
2025-01-10 23:11:31
946
原创 [离线数仓] 总结二、Hive数仓分层开发
- ODS 层 Operate Data Store--存储从MySQL业务数据库和日志服务器的日志文件中采集到的数据-- 日志数据:JSON格式-- 业务数据:-- 全量:DataX,TSV格式,"fieldDelimiter": "\t",-- 增量:Maxwell,JSON格式-- 汇总数据:希望用最少得资源存储更多的数据。
2025-01-08 22:04:35
958
1
原创 [离线数仓] 总结一、数据采集
服务名称子服务服务器hadoop111服务器hadoop112服务器hadoop113HDFSNameNode√DataNode√√SecondaryNameNode√YarnResourcemanager√NodeManager√√ZookeeperZookeeper Server√√√Flume(采集日志)Flume√KafkaKafka√√√Flume(Kafka日志)Flume√Flume(Kafka业务)Flume√Hive√MySQLMySQL√DataX√Spark√√√DolphinSche
2024-12-29 00:14:52
798
原创 [Hive]七 Hive 内核
10. Hive 提交任务到Yarn。3. Hive SQL解析过程。4. MapReduce原理。6. MetaStore模块。11. HiveSQL调优。7. Hive元数据说明。2. Hive运行过程。8. Hive权限说明。
2024-12-28 14:54:53
534
原创 [大数据]Hudi编译集成
1)安装Maven(1)上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录,并解压更名(2)添加环境变量到/etc/profile中(3)测试安装结果mvn -v2)修改为阿里镜像(1)修改setting.xml,指定为阿里仓库地址。
2024-12-10 15:36:17
531
原创 [大数据]Hudi
Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据聚簇/压缩优化和并发,同时保持数据的开源文件格式。Hudi的高级性能优化,使分析工作负载更快的任何流行的查询引擎,包括Apache Spark、Flink、Presto、Trino、Hive等。2021 年:支持 Uber 500PB 数据湖,SQL DML、Flink 集成、索引、元服务器、缓存。也可以从github下载: https://github.com/apache/hudi/
2024-12-09 21:39:47
918
原创 [大数据] Iceberg
Spark中支持两种Catalog的设置:hive和hadoop,Hive Catalog就是Iceberg表存储使用Hive默认的数据路径,Hadoop Catalog需要指定Iceberg格式表存储路径。这种情况下不能使用Iceberg的分区转换,例如:days(timestamp),如果想要使用Iceberg格式表的分区转换标识分区,需要使用Spark或者Flink引擎创建表。例如,如果按天划分分区,而改为按小时划分分区,那么覆盖将覆盖每小时划分的分区,而不再覆盖按天划分的分区。
2024-11-20 23:55:10
1301
原创 [HBase]二 HBase原生Shell命令大全
HBase原生Shell命令汇总1. General组 51.1. 查看集群状态:status 51.2. 查看表的操作方法:table_help 51.3. 查看HBase的版本信息:version 51.4. 查看当前用户:whoami 52. Namespace组 52.1. 创建命名空间:create_namespace 52.2. 显示命名空间列表:list_namespace 5。
2024-10-24 11:16:55
568
原创 [Hbase]一 HBase基础
HBase数据模型的关键在于 稀疏、分布式、多维、排序 的映射。其中映射 map指代非关系型数据库的 key-Value结构。
2024-10-10 11:10:29
1290
原创 [Java]一、面向对象核心编程思想
(1)父类是怎么形成的:将多个类中相同的代码提取出来放到一个类中,这个类被称为父类,其他的类可以直接继承这个父类,这样就可以使用父类中的内容。(2)继承关键字:extends(3)注意事项:a. 子类可以继承父类中私有和非私有成员,但是不能使用父类中私有成员b. 构造方法不能继承(4)继承怎么理解使用:a. 继承不要从是否“拥有”方面来理解,要从是否能“使用”的方面来学习。b. 定义一个父类,在其中定义重复性代码;定义一个子类继承父类-> 子类 extends 父类。
2024-09-25 22:31:25
663
原创 [Python]二、Python基础数据科学库(1)
1956年-达特茅斯会议-人工智能的起点人工智能和机器学习、深度学习的关系:1. 机器学习是人工智能的一个实现途径2. 深度学习是机器学习的一个方法发展而来定义:机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。机器学习是一个通过算法和统计学方法,从大量数据中自动发现模式、学习规律并构建模型的过程。这些模型可以用于对未知数据进行预测、分类或决策,从而实现自动化和智能化的应用。数据。
2024-09-22 13:11:37
1036
原创 [Python]一、Python基础编程(3)
封装:保护对象的内部状态,通过公共方法进行交互。继承:允许子类继承和扩展父类的功能,促进代码重用。多态:通过相同的接口处理不同类型的对象,提高代码的灵活性和可扩展性。这三大特征共同构成了面向对象编程的基础,使得软件设计更加模块化、可维护和易于扩展。在 Python 中,多态指的是不同类的实例可以使用相同的方法名,但实现的方式可以不同。通过这种方式,程序可以更灵活地处理不同类型的对象。python复制raise NotImplementedError("子类必须实现这个方法")python复制。
2024-09-22 01:24:20
1880
原创 [Python]一、Python基础编程(2)
Python2中类分为:经典类 和 新式类在 Python 2 中,类分为经典类(Classic Class)和新式类(New Style Class)。这两者在继承、方法解析顺序(MRO)和其他特性上有所不同。以下是它们的详细说明和示例。### 1. 经典类(Classic Class)经典类是 Python 2 中最早的类类型,通过不继承任何其他类来定义。这种类没有显式的继承基类。#### 示例```python# 创建实例。
2024-09-22 00:51:02
1297
原创 [测试]1.TPC-DS性能测试
通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark了解数据查询和分析的性能表现_对象存储(OSS)-阿里云帮助中心 (aliyun.com)
2024-09-07 00:17:30
872
1
原创 [C语言]二、C语言基础(精炼)
gcc -vgcc-std上面命令指定按照 C99 标准进行编译,c11,c17,c23。c89或ansi:代表C语言的早期标准,也称为ANSI C或C89标准,于1989年发布。:代表C语言的2011年标准版本,也称为C11标准。:代表C语言的2017年标准版本,也称为C17标准。:GNU扩展了ANSI C标准的一部分。:GNU扩展了C99标准的一部分。:GNU扩展了C11标准的一部分。1. 计算机高级语言程序的运行方法有编译执行和解释执行两种,以下叙述中正确的是( )。
2024-08-30 00:38:55
1084
原创 [Hive]四、Hive On Tez
用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。2)拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/software目录。Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。3)将apache-tez-0.9.1-bin.tar.gz上传到HDFS的/tez目录下。下面创建一个tez-site.xml文件。
2024-08-26 21:43:46
1207
原创 [C++]一、C++基础编程
G:\Cpp\2023版C++教程C++语言程序设计第一部分基础篇一、什么是C++1.1 C++ 简介C++ 是一门非常经典的高级编程语言。顾名思义,C++可以看做是C语言的增强版,在C的基础上扩展了更多的功能;最主要的扩展,就是面向对象和泛型编程。因此C++融合了多种不同的编程方式:以C语言为代表的面向过程编程;面向对象编程;以及模板化的泛型编程。可以说,C++一门“大而全”的编程语言,你可以用它实现想要的任何功能;与此同时,学习C++需要掌握的内容也会比较多。1.1.1
2024-08-26 00:18:12
7184
4
原创 [C语言]一、C语言基础(06.文件操作)
文件,对我们并不陌生,文件是数据源(保存数据的地方)的一种,比如大家经常使用的word文档,txt文件,excel文件,avi文件...都是文件。文件最主要的作用就是保存数据,它既可以保存一张图片,也可以保持视频,声音...C程序中,对于文件中数据的输入/输出操作以“流(stream)” 的方式进行,可以看做是一种数据的流动。输入流:数据从数据源(比如:文件)到程序(或内存)的流动过程。输出流:数据从程序(或内存)到数据源(比如:文件)的流动过程。
2024-08-25 23:49:45
999
原创 [C语言]一、C语言基础(05.常用函数)
p="ABCDE";这样做以后,数组变量的地址还是不变的,即 strcpy() 只是在原地址写入新的字符串,而不是让数组变量指向新的地址。【解析】首先该程序符合语法规则,因此不会编译时产生错误,其次字符数组str1和str2都为指针常量,将他们直接用关系运算符进行比较肯定是不相等的,但是它们所指的字符串是相等的,因此最后输出Unequal。strncat() 总是会在拼接结果的结尾,自动添加空字符′\0′ ,所以第三个参数的最大值,应该是 str1 的变量长度减去 str1 的字符串长度,再减去 1。
2024-08-25 23:46:04
1062
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人