- 博客(10)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 HBase 入门
当集群中存在多个(两个或者三个以上)HMaster,备用的Master会定期与Active Master通信以获取最新的状态信息,以保证故障切换时自身的数据状态是最新的,因而Active Master可能会收到大量来自备用Master的数据请求,有可能导致HMaster负载较高。BucketCache是阿里贡献的。LSM树原理把一棵大树拆分成N棵小树,它首先写入内存中,随着小树越来越大,内存中的小树会flush到磁盘中,磁盘中的树定期可以做merge操作,合并成一棵大树,以优化读性能。
2024-04-30 17:30:34
792
3
原创 Java线程及线程池详解
比如当前线程已中断,调用interrupted(),返回true, 同时将当前线程的中断标记位改为false, 再次调用interrupted(),会发现返回false。其它线程如果想要中断线程A,就对线程A的中断标识位做一个标记,代表着是否有中断请求(请求可以来自任何线程,包括被中断的线程本身),线程A自己通过。,当线程t1想中断线程t2,只需要在线程t1中将线程t2对象的中断标识置为true,然后线程2可以选择在合适的时候处理该中断请求,甚至可以不理会该请求,就像这个线程没有被中断一样。
2024-04-26 14:17:51
1218
3
原创 HBase Regionserver 批量掉线问题排查
而该问题是由zk 生成sessionid bug引起:当System.currentTimeMillis()中的第40位为1时,符号扩展将填充nextSid的前8个字节,并且id不会使会话id唯一,因此当zk大量链接时,有存在生成重复id的可能性,建议将右移改为逻辑移位。通过分析zookeeper日志,发现相同的session id被分配到不同的节点,导致部分节点session id失效。因zk是CDH集群自带版本,升级zk影响较大,因此采用下载源码对该类进行修改编译后,单独打包,然后把补丁优先加载解决。
2024-04-25 12:58:27
434
7
原创 JVM问题排查
CMS垃圾收集器提供了一个可配置的参数,即-XX:+UseCMSCompactAtFullCollection开关参数,用于在“享受”完Full GC服务之后额外免费赠送一个碎片整理的过程,内存整理的过程无法并发的,空间碎片问题没有了,但提顿时间不得不变长了,JVM设计者们还提供了另外一个参数 -XX:CMSFullGCsBeforeCompaction,这个参数用于设置在执行多少次不压缩的Full GC后,跟着来一次带压缩的。- jstat -gcutil pid 3s 10分析是否存在频繁GC。
2024-04-25 09:00:24
1228
3
原创 图存储及图计算
顶点、边、度(Degree):与顶点关联的边数量、出度(有向图顶点出边数量)、入度(有向图顶点入边数量)、有向图(边有方向)、无向图(边无方向)、连通图(多个顶点组成的图中任意两个顶点相连)、强联通(多个顶点组成的图中任意两个顶点 Vm、Vn 且 m ≠ n,从 Vm 到 Vn 以及从 Vn 到 Vm 之间都存在通路)、路径(任意两个顶点之间若存在通路)、回路或环(路径第一个顶点和最后一个顶点相同):利用一维数组存储图中所有边的图表示方法,该数组中每个元素都用来存储一条边的起点、终点和边属性。
2024-04-24 14:52:01
819
原创 基于图数据库Neo4j的用户社区发现(二)
通过以上设备社区发现及用户+设备模式匹配,并通过实时消息触发,搭建基于用户和设备的实时用户社区挖掘能力,并可根据业务需求加入更多顶点,如:ip、手机号等。同时发挥图库模式匹配及社区算法能力。
2024-04-22 20:07:02
539
原创 风控-设备风险识别
基于应用安装列表、电池电量、屏幕亮度、wifi列表等动态信息判断设备是否使用异常。使用篡改工具,篡改设备的信息:手机品牌、机型、MAC地址等设备信息。可通过收集设备信息形成设备品牌-参数信息库用于判断设备参数是否异常。可通过应用启动路径判断,例如以下多开软件包路径。设备地域集中、APP列表单一、资源聚集等判断。可通过设备cpu架构是否x86判断。指利用群控工具,同时控制多台设备。
2024-04-21 09:59:06
575
3
原创 实时风控-特征工程实现
以上功能分为校验、清洗两类,校验函数仅标记字段异常,写入异常字段列表,清洗函数用于对字段进行转换并覆盖原有字段值,若清洗失败也写入异常字段列表。风控平台接入的业务数据类型及数据量越来越多,且数据源多样化,为提升业务接入效率、数据质量、策略上线效率、特征工程沉淀需搭建特征工程(实时数据清洗及扩维)平台。通过以上特征工程对实时风控接入数据进行预处理,然后再进入策略进行匹配,从而充分挖掘数据特征,提升策略召回率。扩维是在原有字段基础上进行关联,抽取出更多特征数据,扩维出的特征增加统一前缀进行区分。
2024-04-20 17:59:59
302
原创 基于图数据库Neo4j的用户社区发现(一)
对于网络中的每一个节点,在初始阶段,Label Propagation算法对每一个节点一个唯一的标签,在每一个迭代的过程中,每一个节点根据与其相连的节点所属的标签改变自己的标签,更改的原则是选择与其相连的节点中所属 标签最多的社区标签为自己的社区标签,这便是标签传播的含义。B:算法采用图遍历发现社区,不适合实时行为触发,在应用上采用定时触发更新,对已存在的社区标识的节点更新社区,新加入节点划分社区。Relationships(关系)关系是用来连接两个节点的,也可以包含多个标签和属性。
2024-04-20 17:43:48
1168
1
初涉IT迷茫,请长老们多多指点
2009-11-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人