- 博客(12)
- 资源 (6)
- 收藏
- 关注
原创 利用shell脚本统计git项目各开发者代码提交行数
如何衡量程序员KPI作为码农,大家或多或少都遇到过用代码量来衡量贡献度的,所以有时候需要自己去统计参与开发项目的代码提交行数,下面是我写的运行于Windows上的代码量统计脚本。脚本比较简单,我也就不多说了,放出来给需要的兄弟借鉴。
2023-12-22 16:44:14
205
原创 Flink CEP实现抢购黑名单需求实战
最近有个抢购黑名单的需求,产品为了增加对黄牛党的限制,想要在抢购活动期间能对潜在黄牛党进行干扰,从而保障普通用户的权益。于是我想到了适合实时风控场景的Flink CEP技术。通过对Flink官方文档的学习,我自己根据黑名单需求写了个Demo。黑名单需求简化后如下:在抢购活动前后,实时向后端系统反馈异常访问/购买的用户名单信息,具体实现逻辑是,BY渠道BY用户BY指定的URL统计用户访问指定URL的次数,选取访问次数>设定阈值的用户,并统计出这些用户访问指定URL时的IP切换次数。主要De
2020-12-04 18:52:35
560
原创 JanusGraph索引学习笔记
Indexing for Better PerformanceJanusGraph supports two different kinds of indexing to speed up query processing: graph indexes and vertex-centric indexes. Most graph queries start the traversal from a list of vertices or edges that are identified by thei
2020-11-19 15:56:15
1102
原创 Oozie相关问题解决
一、执行Oozie命令报认证失败问题解决在安装Oozie服务的主机上将当初添加该主机进CDH集群时所生成的主机证书文件cm-auto-host_cert_chain.pem加入到该主机本地java秘钥库中,执行如下命令查看本地java秘钥库已添加的证书列表:cd $JAVA_HOME/jre/lib/securitykeytool -list -keystore cacertsEnter keystore password: changeit然后执行如下命令将CDH主机认证证书文件cm-a
2020-10-19 20:12:39
561
原创 Cloudera官方文档整理
要评估集群的硬件和资源分配,需要分析要在集群上运行的工作负载类型,以及将用于运行这些工作负载的CDH组件。您还应该考虑要存储和处理的数据的大小、工作负载的频率、需要运行的并发作业的数量以及应用程序所需的速度。在创建集群的体系结构时,需要在集群中的主机之间分配Cloudera Manager和CDH角色,以最大限度地利用资源。Cloudera提供了一些关于如何将角色分配给集群主机的指南。请参阅建议的群集主机和角色分布。将多个角色分配给主机时,将主机上每个角色的总资源需求(内存、CPU、磁盘)相加,以确定所需
2020-10-18 23:38:35
845
2
原创 如何对CDH集群上用户提交的作业进行监控告警
以CDH6.0.1版本为例,其资源管理框架是YARN,对于所有跑在YARN上的job(或app),都可以通过YARN的ResourceManager(简称RM)提供的restful API请求查询其运行状态。其GET请求命令格式如下:GET http(or https)://rm-http(or https)-address:port/ws/v1/cluster/apps返回结果为json格式的所有YARN记录的job信息。也可在上述命令的URL后面添加多个过滤参数,支持的过滤参数有如下几个:
2020-10-06 18:37:29
1059
原创 如何向CDH集群添加主机节点
不知不觉干了两年多的大数据开发&运维,想当初入职时因为大数据组开发人手不足(就后来带我的一个人),把本来投的是运维开发岗的我调去了大数据组。虽然当时早就听说做大数据很有前途,但本硕学的都是通信工程的我完全没有基础啊不敢投啊,不知是人品好或是运气好该庆幸自己走了狗屎运转到了有“前途”的岗位,还是因为我的简历上有做Python开发的实习经历,反正我是体会到了大公司对应届校招生调岗是多么的随意。于是从这之后就开始了我的踩坑之旅。。。之所以来优快云写博客了,是因为踩过的坑如果不记录是不知道什么时候又会再踩
2020-08-22 20:01:13
1893
原创 standalone模式下Spark运行过程总结
在standalone模式下运行时的消息通信过程分以下两个阶段:一、spark集群启动时的消息通信过程当启动master后(start-master.sh),随之启动各个worker(start-slave.sh spark://whz:7077)。worker节点向master节点发送注册消息如图所示master收到消息后需要对worker发送的信息进行验证记录。如果注册成功则发送RegisteredWorker消息给对应的worker,告诉worker已经完成注册,随后注册成..
2020-08-15 22:02:37
564
原创 Spark SQL如何对Hive分区表进行数据重分区
在CDH集群上搭建数据仓库时,通常使用CDH自带的Sqoop导数工具将业务数据表从MySQL导入到Hive。当MySQL表数据量很大时,应采用创建分区表每日进行增量同步的方式。但第一次用sqoop导入时我们一般会将历史数据统一放到某个分区下面,因为这样会比按天依次将历史数据导入到对应日期的分区节省时间。但这样会使得查询某个时间范围的历史数据效率很低,故需要再进行数据重分区。由于我们主要使用Spar...
2019-11-12 21:00:48
2473
原创 SparkSQL实现分区覆盖写
一、创建分区表scala> spark.sql("CREATE TABLE ptable(c1 int,c2 int) PARTITIONED BY (step string)")res1: org.apache.spark.sql.DataFrame = []二、向分区中插入测试数据scala> spark.sql("INSERT INTO TABLE ptable...
2019-11-04 16:36:09
4686
原创 如何对CDH集群的服务进行监控告警
众所周知,运维以Hadoop为主的大数据平台的难点在于其生态组件众多,各组件之间的交互关系复杂,问题排查修复困难。而Cloudera推出的CDH(Cloudera Distribution Hadoop)能够让用户通过其中的Cloudera Manager十分方便地部署和管理Hadoop集群。Cloudera官方提供了Cloudera Manager的Java和Python版本的API接口供用...
2019-11-03 20:35:43
6579
1
基于sift和SVM算法实现的手势识别 MATLAB GUI程序
2015-11-06
无线信道传播建模与仿真MATLAB源代码
2015-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人