- 博客(7)
- 收藏
- 关注
原创 kafka 幂等主键保存在hbase和redis中的优缺点
综上所述,选择HBase还是Redis存储幂等主键数据,取决于具体的应用场景和需求。如果需要处理的数据量巨大,且重视数据的持久性和分析能力,HBase是更好的选择。而如果追求极致的性能和快速响应,尤其是处理高并发的短暂会话或状态保持,Redis则更为合适。在设计系统时,还需要考虑数据的生命周期、成本预算以及系统的整体架构。
2024-09-23 10:54:14
887
原创 mysql索引实现原理 B+树和B树的区别
而辅助索引的叶子节点并不包含行记录的全部数据,而是只存储相应行数据的辅助索引值和主键的值,即当通过辅助索引来查询数据时,需要先检索辅助索引获得主键,再通过主键在聚集索引中找到完整的行记录数据。而B+树与B树在节点结构、数据存放和查询效率等方面的区别,也决定了B+树更适合作为数据库的索引结构。- **磁盘读写代价低**:B+树的内部节点并没有指向关键字具体信息的指针,其内部节点比B树小,盘块能容纳的结点中关键字数量更多,一次性读入内存中可以查找的关键字也就越多,相对的,IO读写次数也就降低了。
2024-09-13 11:02:08
473
1
原创 hive的UDF怎么实现?
注意:实际的UDF名称可能需要在注册函数时指定,并且在调用时使用指定的名称,如果UDF类中有getDisplayName()方法,它返回的字符串会作为UDF的名字在Hive中使用。Hive的UDF(User-Defined Functions)是自定义函数,可以用来扩展Hive的内置函数功能。创建一个Java类,继承org.apache.hadoop.hive.ql.exec.UDF。使用jar命令将.class文件打包成.jar文件。在Hive中添加JAR文件并注册UDF。在Hive查询中使用UDF。
2024-09-13 10:58:26
276
原创 sparkstreaming DStream和DStreamGraph
**DStreamGraph**则是RDD DAG的模板,用于表示DStream之间的依赖关系和数据流的处理逻辑,它记录了所有的inputStreams和outputStreams,并动态地创建RDD DAG。- **DStream**是Spark Streaming中处理实时数据流的高级抽象,代表了一个持续不断的数据流,内部由一系列RDD组成。- DStreamGraph是RDD DAG(有向无环图)的模板,用于表示DStream之间的依赖关系和数据流的处理逻辑。
2024-09-13 10:41:50
361
原创 Couldn‘t-find-leader-offsets-for-Set()
1,程序启动失败Couldn't-find-leader-offsets-for-Set()百度这个,你会发现类似Couldn't find leader offsets for Set([topic,0], [topic,1], [topic,2])这种,他建议你说什么host没配什么的但是,你看区别是括号里,我们的报错没有指定topic那我就怀疑了,这到底是哪一个报错呢,没有明显指定哪一个,说明zookeeper里根本就没这个topic的记录然后我就去更新一下代码,发现你这添加了一个
2021-06-21 10:13:33
644
转载 为什么加载配置的类最好是单例
因为配置文件里的信息都是一样的,不论哪个用户要登录系统访问连接数据库,都是要读取配置文件的,这样每次如果都要实例化读取配置文件的类,这样就会非常浪费系统资源。因此使用单例模式:只要实例化一次之后,有了一个对象,之后就不再需要实例化了。...
2021-06-21 09:59:36
273
原创 python numpy.sum 参数axis,keepdims
keepdims主要用于保持矩阵的二维特性import numpy as npa = np.array([[1,2],[3,4]])# 按行相加,并且保持其二维特性print(np.sum(a, axis=1, keepdims=True))# 按行相加,不保持其二维特性print(np.sum(a, axis=1))输出array([[3], [7]])array([3, 7])...
2018-05-02 15:20:51
4439
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人