
学习记录
文章平均质量分 56
Mememelody
这个作者很懒,什么都没留下…
展开
-
javac错误: 程序包org.json.simple.parser不存在
来分隔这些jar包(当然写起来很冗余,目前还没找到别的方式实现)手动添加app文件夹下java代码所需要的多个jar包,用。原创 2023-09-18 23:23:42 · 755 阅读 · 0 评论 -
【23.9.7】Hive DML语句
不论多少条数据,最后只返回一行。比如 sum(), count(), max(), min(), avg()。注意,count是统计有多少行,sum是统计行中数据之和。limit 2,3。第一个参数指定要返回的第一行的偏移量(从 Hive 2.0.0开始),第二个参数指定要返回的最大行数。left join。以左表为准,左表所有行都会返回,右表有就对应填充,没有就以 null 展示。把group by的那个字段值相同的所有行都当成一组。只返回 limit后面数字的行数。limit 5,就只返回5行结果。原创 2023-09-07 14:54:24 · 102 阅读 · 1 评论 -
【23.9.6】启动hive
太久没看hadoop,启动过程全忘了,重新整理成文字,方便下次直接使用。原创 2023-09-07 13:05:03 · 79 阅读 · 1 评论 -
【23.8.18】聚类算法之DBSCAN
【总结】就是不断搜寻核心对象的密度可达范围,直到没办法继续扩展,就对下一个核心对象继续扩展。没有被扩展的点就是噪声点。如果eps过小,那eps范围内点减少,容易使很多点没有办法进入密度可达范围,容易被认为是噪声点。如果eps过大,容易导致距离近且密度大的核心对象被划分为同一个簇;核心对象:[2, 3, 8]原创 2023-08-18 13:16:20 · 160 阅读 · 1 评论 -
【23.8.15】Hive SQL | 结构化文件映射为二维表
【代码】【23.8.15】原创 2023-08-16 19:12:47 · 327 阅读 · 1 评论 -
【23.8.14】数据仓库
23.8.14【数据仓库】数据仓库的功能:主要负责分析数据,帮助企业进行决策。数据驱动决策。没必要用数据库来进行数据分析,数据库主要用来保持业务正常运行,并且读压力大,使用数据库来进行数据分析会加大读压力。非结构化数据是指,不适于由二维表来表现的,比如音频视频,文档等文件类型。DDL,设计表结构,比如创建表、索引等,不涉及数据DML,用于对表中数据进行增删改查Hive,建立了在Hadoop之上的开源数据仓库,可以将存储在Hadoop文件中的结构化、半结构化数据映射为一张数据库表Hive原创 2023-08-14 21:26:19 · 62 阅读 · 0 评论