- 博客(18)
- 收藏
- 关注
原创 JavaRDD.mapPartitions和javaRdd.foreachPartition讲解
JavaRDD.mapPartitions和javaRdd.foreachPartition讲解
2024-08-21 18:21:02
461
1
原创 JavaRDD 提供了多少种方法来操作数据
Apache Spark 提供了丰富的 API 来操作数据,尤其是在JavaRDD类中。以下是JavaRDD提供的一些常用方法及其用途的总结。
2024-08-21 18:18:50
807
原创 将全部包含2023的字段的txt文本全部替换成1.TXT的shell脚本
xargs 命令将找到的文件传递给grep -l 2023(包含2023字段的文件名,-l标识只输出文件名)-print0 和 -0参数确保文件名中的空格和特殊字符被正确处理,并通过管道传给下xargs命令。xargs - I {} mv {} ./1.txt将所有符合要求的文件都替换成1.txt。
2024-02-29 18:47:58
389
原创 什么是大模型,以及大模型的实用领域和前景
在没有大模型的情况下,分析这些庞大的数据可能是一个巨大的挑战,因为数据可能涉及数千万甚至数亿的用户,包含通话记录、短信、上网行为、消费习惯等。首先,大模型在自然语言处理、计算机视觉等领域已经取得了显著的成果,未来随着技术的不断进步,大模型的性能将得到进一步提升,可以处理更加复杂、细致的任务。大模型的出现为人工智能技术的发展提供了新的思路和方法,未来随着大模型技术的不断发展和创新,将涌现出更多新的人工智能应用和技术。同时,大模型的训练和应用也需要大量的计算资源和专业知识,这也限制了大模型的普及和应用。
2024-02-20 18:26:32
1924
原创 clickHouse SQL调优
如果使用去重引擎进行数据查询,且使用argMax函数和final关键字,会导致整个 查询性能较差,需要提前对重复数据做合并去重optimize操作,查询时候直接查 询不需要使用argMax函数和final关键字,提升查询性能。MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置 生成稀疏索引。根据索引字段查询,能快速过滤数据,减少数据的读取,大大提 升查询性能。
2024-02-20 17:41:56
938
原创 clickHouse最佳实践参数调整
参数 参数描述 默 认 值 建议值 是否需 要重启 生效 max_memory_us age_for_all_queries 单台服务器上所有查询的内存使用 量,默认没有限制。建议根据机器 的总内存,预留一部分空间 0 机器总内 存的80% 否 max_memory_usage 单个查询在单台服务器的能使用的 最大内存。 10G 50-100G 否 max_bytes_befor e_external_group _by
2024-02-20 17:31:07
1453
原创 clickHouse分区设计
● 如果业务场景需要做小时分区(获取小时分区的单分区数据量超过亿级别),使用d、h做联合分区键,其中h是整型 小时数。例如(20240219,8)此分区就是以(天,小时)作为分区键。● 综合考虑数据分区粒度、每个批次提交的数据量、数据的保存周期等因素,合理 控制part数量。● 建议使用toYYYYMMDD(d)作为分区键,d是date类型。● 如果保存多年数据,建议考虑使用月做分区,toYYYYMM(m)。合理设置分区键,控制分区数在一千以内,分区字段使用整型。
2024-02-19 11:05:37
875
原创 ClickHouse之MergeTree引擎!
删除老数据的操作是在分区异步merge的时候进行处理,只有 同一个分区的数据才会被去重,分区间及shard间重复数据不会被 去重,所以应用侧想要获取到最新数据,需要配合argMax函数一 起使用。Summin gMergeTree 当合并SummingMergeTree表的数据片段时,ClickHouse会把所有 具有相同主键的行进行汇总,将同一主键的行替换为包含sum后的 一行记录。如果主键的组合方式使得单个键值对应于大量的行,则 可以显著的减少存储空间并加快数据查询的速度。
2024-02-18 17:29:42
500
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人