大丰杨千幻-优快云博客

原创 kafka 幂等主键保存在hbase和redis中的优缺点

综上所述，选择HBase还是Redis存储幂等主键数据，取决于具体的应用场景和需求。如果需要处理的数据量巨大，且重视数据的持久性和分析能力，HBase是更好的选择。而如果追求极致的性能和快速响应，尤其是处理高并发的短暂会话或状态保持，Redis则更为合适。在设计系统时，还需要考虑数据的生命周期、成本预算以及系统的整体架构。

2024-09-23 10:54:14 989

原创 mysql索引实现原理 B+树和B树的区别

而辅助索引的叶子节点并不包含行记录的全部数据，而是只存储相应行数据的辅助索引值和主键的值，即当通过辅助索引来查询数据时，需要先检索辅助索引获得主键，再通过主键在聚集索引中找到完整的行记录数据。而B+树与B树在节点结构、数据存放和查询效率等方面的区别，也决定了B+树更适合作为数据库的索引结构。- **磁盘读写代价低**：B+树的内部节点并没有指向关键字具体信息的指针，其内部节点比B树小，盘块能容纳的结点中关键字数量更多，一次性读入内存中可以查找的关键字也就越多，相对的，IO读写次数也就降低了。

2024-09-13 11:02:08 562 1

原创 hive的UDF怎么实现?

注意：实际的UDF名称可能需要在注册函数时指定，并且在调用时使用指定的名称，如果UDF类中有getDisplayName()方法，它返回的字符串会作为UDF的名字在Hive中使用。Hive的UDF（User-Defined Functions）是自定义函数，可以用来扩展Hive的内置函数功能。创建一个Java类，继承org.apache.hadoop.hive.ql.exec.UDF。使用jar命令将.class文件打包成.jar文件。在Hive中添加JAR文件并注册UDF。在Hive查询中使用UDF。

2024-09-13 10:58:26 354

原创 sparkstreaming DStream和DStreamGraph

**DStreamGraph**则是RDD DAG的模板，用于表示DStream之间的依赖关系和数据流的处理逻辑，它记录了所有的inputStreams和outputStreams，并动态地创建RDD DAG。- **DStream**是Spark Streaming中处理实时数据流的高级抽象，代表了一个持续不断的数据流，内部由一系列RDD组成。- DStreamGraph是RDD DAG（有向无环图）的模板，用于表示DStream之间的依赖关系和数据流的处理逻辑。

2024-09-13 10:41:50 408

原创 Couldn‘t-find-leader-offsets-for-Set()

1，程序启动失败Couldn't-find-leader-offsets-for-Set()百度这个，你会发现类似Couldn't find leader offsets for Set([topic,0], [topic,1], [topic,2])这种，他建议你说什么host没配什么的但是，你看区别是括号里，我们的报错没有指定topic那我就怀疑了，这到底是哪一个报错呢，没有明显指定哪一个，说明zookeeper里根本就没这个topic的记录然后我就去更新一下代码，发现你这添加了一个

2021-06-21 10:13:33 678

转载为什么加载配置的类最好是单例

因为配置文件里的信息都是一样的，不论哪个用户要登录系统访问连接数据库，都是要读取配置文件的，这样每次如果都要实例化读取配置文件的类，这样就会非常浪费系统资源。因此使用单例模式：只要实例化一次之后，有了一个对象，之后就不再需要实例化了。...

2021-06-21 09:59:36 303

原创 python numpy.sum 参数axis，keepdims

keepdims主要用于保持矩阵的二维特性import numpy as npa = np.array([[1,2],[3,4]])# 按行相加，并且保持其二维特性print(np.sum(a, axis=1, keepdims=True))# 按行相加，不保持其二维特性print(np.sum(a, axis=1))输出array([[3], [7]])array([3, 7])...

2018-05-02 15:20:51 4559

我家有个程儿的博客