- 博客(54)
- 资源 (1)
- 收藏
- 关注
原创 G1 GC基本逻辑
每次回收的间隔是由G1自己控制的,回收执行次数可以通过参数-XX:G1MixedGCCountTarget来设置,这个参数默认回收次数是8次,同时有一个参数-XX:G1HeapWastePercent,默认值是整个堆大小5%,就是说当前回收集合内即将空出来的区域大于整个堆的5%,就会立即停止混合回收了。如下图,先停止系统程序的运行,然后对各个线程栈内存中的局部变量代表的GC Roots,以及方法区中的类静态变量代表的GC Roots,进行扫描,标记出来他们直接引用的那些对象。2)老年代的区域已经满了。
2023-12-08 15:01:32
1114
1
原创 线性回归原理与使用
1 回归预测年薪 = 0.5 * 工作年限 + 0.7 * 学历数值回归的目的就是预测 数值型的目标值。求解回归方程式 系数 (0.5 ,0.7)的过程就是 回归。2 简单线性回归样本特征只有一个的线性回归 ,称为简单线性回归。举例: 房屋面积与价格的关系 y = a x + b3 最小二乘法第一个距离度量值可能为0第二个 非连续不可导,求解麻烦。
2023-04-28 20:29:10
623
原创 机器学习-特征缩放
从数值来看, 年份和工资相比数值太小, 对整个模型的影响基本上可以忽略。(方差计算的是数据平方, 个体数据相差值会放大,所以开方求平方根可以缩小换算回来。机器学习中, 特征值通常相差比较巨大, 不同维度的特征值相差巨大,导致部分特征影响微乎其微, 用来做训练效果不好。Xnew = x - mean(x) / std(x) [均值 标准差】举个例子, 工作年数和 工资收入作为特征值,来构建预测模型。因此,我们需要对特征值进行缩放, 已规避数值差异带来的影响。
2023-03-29 17:03:49
1275
原创 KNN算法
输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。k-近邻算法也可以像我们人一样做到这一点,不同的地方在于,我们的经验更”牛逼”,而k-邻近算法是靠已有的数据。如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
2023-03-28 11:13:30
235
原创 kafka异常解决
NotAssignedReplicaException kafka.common.KafkaException: Should not set log end offset
2022-10-30 23:40:18
3106
原创 Mongodb 权限管理及常用命令
1 用户权限2 创建管理员:以非授权模式开启mongoDB服务。mongod--port27017--dbpath/data/db然后进入admin数据库,执行如下命令:use admindb.createUser( { user: "myadmin", pwd: "myadmin", roles: [ { role: "userAdminAnyDatabase", db: "admin" } ] })3 创建普通用户3.1以...
2021-05-18 15:36:51
1511
原创 spark参数调优
1 OOM 优化Container killed by YARN for exceeding memory limits. 19 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead 问题原因1: 数据倾斜或数据量太大,导致executor处理的数据量太大超过executor内存限制。 解决办法: 一般加大execut...
2021-05-12 14:38:16
1206
原创 mysql常用操作
1 连接数据库:1.1 连接如下表示 账号root 密码123456 连接到mysql服务器 host-02mysql -uroot -p123456 -h host-02如果不指定-h, 则默认连接当前服务器(localhost)1.2 连接权限 查看在很多情况下,创建用户时,就指定了用户连接数据库的权限。创建用户dumper具备在任意节点(%)连接mysql服务器的权限create user dumper@'%' identified by '123456',...
2021-05-06 18:22:28
228
原创 spark join 及优化
一 spark常用的join形式:1broadcast hash join (小表 大表 join)1.1)没有加hint, 满足如下条件,也会产生broadcast join: 1)被广播的表需要小于 spark.sql.autoBroadcastJoinThreshold 所配置的值,如果没有配置,则默认是10M。 2)被广播的表不能是基表,比如 left outer join 时,只能广播右表。 如果将 spark.sql.autoBroadc...
2021-04-14 20:59:01
3105
原创 impala hive启用LDAP hue (cdh6.3)
1 配置impala:注意: 上述互斥项,如果使用ldap的uid,直接配置上面一个。 如果使用ldap的cn,则配置下一项: cn=#UID,ou=People,dc=...,dc=com2 配置HIVEHIVE默认使用 LDAP uid认证,如果LDAP配置的使用cn, 可以通过配置下述参数参数:hive.server2.authentication.ldap.userDNPattern值:cn=%s,ou=People,dc=tcl,dc=c...
2021-03-30 12:24:36
1455
原创 open LDAP 简述
一:基础概念1 schema 相当于类和属性定义所有的objectClass和attribute都定义在Schema里。不同的schema定义的属性可以相互使用。openldap定义的schema文件路径:/etc/openldap/schema/安装openldap后,我们需要导入一些基本的 Schema# 我们需要向 LDAP 中导入一些基本的 Schema。这些 Schema 文件位于 /etc/openldap/sc...
2021-03-18 20:11:55
644
原创 yarn WEB UI及reserved memory、spark WEB UI
1 yarn web ui: Apps Submitted:已提交的应用 Apps Completed:已完成的应用 Apps Running:正在运行的应用 Containers Running:正在运行的容器 Memory Total:集群总内存 Memory Used:已使用内存 VCores Total:集群 CPU 总核数 VCores Used:已使用的 CPU 核数 Memory Reserved:预..
2021-03-02 14:27:01
5413
1
原创 idea 创建项目
搞了很多次,总是忘记。现在记录下来,以备查用1 完全新建一个项目。这个比较简单。 new project 指定SDK ,指定项目路径 。。。,自动创建src源码路径,并产生pom.xml。此步骤产生的pom.xml缺少很多必要的插件,需要手动配置。https://jingyan.baidu.com/article/48b558e3f8f6637f39c09a44.html2 从git下载一个项目源码后构建项目【常见】。注意先把项目路径下的 .idea目录删除St...
2020-07-23 20:13:21
283
原创 CDH6.3.1 solr安装
1 cluster1集群, 添加服务,选择solr2 集群安装即solr云,选择3台机器安装,完成即可3 安装完成后,可以点击solr实例,任意节点的实例 查看WEB UI,正常应该如下:4 安装问题:4.1 问题描述:第一次安装后,WEB UI无法打开,总是报错:javax.servlet.UnavailableException: Error processing the request. CoreContainer is either not initial...
2020-07-14 11:10:06
1159
原创 CDH mysql 元数据库备份
1 前言mysql-client和mysql-servermysql-client操作mysql实例的客户端有很多,mysql-client只是其中一种,包括mysql,mysqldump,mysqlslap,这些访问,备份,压力测试的工具。mysql-server是服务端,也就是说,你服务端没安装,客户端没对象去操作。2 安装mysql-client端元2.1 先卸载marial db的库包rpm -qa|grep mariadbrpm -e --nodeps maria...
2020-07-01 20:07:06
685
原创 hbase LSM原理
hbase的写入性能远超一般的关系数据库,而且读取性能也不差。原理是怎么样的呢,这里主要是用到了LSM算法。1 传统关系性数据库查询,主要是基于索引。 大部分都是B树和B+数来实现。有关B,B+树的数据结构可以参考如下2篇文章:B树_程序袁小黑-优快云博客_b树 :https://blog.youkuaiyun.com/ydonghao2/article/details/82286580https://www.cnblogs.com/xueqiuqiu/articles/8779029....
2020-06-29 21:19:38
414
原创 CDH impala安装使用
1 CDH 安装impala 1.1 直接选择 cluster, 服务添加服务即可。 1.2 安装时,注意组件impalad 基本同datanode一致。 而 catalogd,statestored不限。2 组件2.1 Impala Daemon impalad是Impala的核心进程,运行在所有的数据节点上,可以读写数据,并接收客户端的查询请求,并行执行来自集群中其他节点的查询请求,将中间结果返回给调度节点。调用节点将结果返回给客户端。用户在impal...
2020-06-28 21:19:38
1327
原创 spark 参数配置及内存模型
1spark 提交主要参数1.1 num-executors此数量代表 spark的executors数量, 所有的task在executor中运行。1.2 executor-cores此数值代表每个 executor中可以并行运行的task数。 一般一个任务使用1核,此值等同于1个executor占用的CPU核心数。1.3 executor-memory此参数指定了每个 executor占用的内存。注: 即使是executor-cores=4,并行运算的4个...
2020-06-11 12:23:03
7093
1
原创 namenode状态standby导致hadoop运行故障
1 CDH强制手动切换HA下active namenode后报如下错误:(nn1切换为standby,nn2切换为active) hadoop和hive执行报错,如下错误信息: Operation category READ is not supported in state standby.........2.重新启动zkfc(在sbin目录下)如果...
2020-04-27 15:01:02
618
原创 CDH6.0 取消kerberos认证
首先停止集群所有服务。1 zookeeper 1.1 enableSecurity取消勾选。1.2 取消勾选sasl2HDFS修改Hadoop的安全身份验证第一个选为simple,第二个取消勾选修改DataNode的数据目录权限为755(原值为700)修改DataNode服务的端口号,分别修改为9866和...
2020-04-22 12:22:17
1952
1
原创 YARN JOB HISTORYRI日志故障: Aggregation may not be complete
1 运行的spark job和MR ,HIVE,flink都无法查看yarn容器运行日志。查看yarn job历史服务器运行日志,发现如下错误信息: yarn job history 根据如下提示信息,可以知道是哪个节点。如下为hadoop002节点。job history进程日志信息位于: /var/log//var/log/hadoop-mapreduce/hadoop...
2020-04-20 17:04:23
1939
转载 Flink 写HDFS之BucketingSink
Flink写HDFS,目前常用的有 BucketingSink, StreamingFileSink. BucketingSink后续会被StreamingFileSink替代。不过功能实现都还是很强大的。 Streaming支持一些BucketingSink不支持的特性,如S3, parquet格式写等等,1 代码示例:impor...
2020-04-15 23:52:23
1921
原创 HDFS故障:Namenode安全模式:The reported blocks 12xx needs additional xx blocks to reach the threshold 0.999
1 CDH环境,HDFS无法做任何操作,报错信息连接Namenode节点失败,处于safemode。2 查看HDFS 实例,红色警告,不能创建/tmp/.cloudera.....3 查看 namenode日志: /var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-cdh00.log.out报错信息:org.apache.......
2020-04-15 19:34:20
7321
原创 kafka 故障: 监控出现 offline partition 1个和大量under replicated 状态分区.
1 CDH Kafka实例出现红色告警offline partition2 查看CDH 图表实例:发现从4月14号3:20 ,到今天4月15号一直保持offline partitions数量和under replicated数量不变。3 在命令行查看under replicated parttion 状态的topic./kafka-topics.sh --d...
2020-04-15 12:23:00
9133
1
原创 CDH6使用kafkamirror进行跨集群数据迁移
1 环境说明。 源集群kafka使用了kerberos安全认证 目标集群没有使用安全认证。2 配置步骤: 2.1 添加kafkamirror2.2添加 Kafka 源集群和目标集群配置2.3 配置需要同步的topic.逗号分隔支持。| 分隔 所有topic: ^.*, 为正则表达式。2.3 有些老版本的CDH可能要配置z...
2020-04-10 12:47:40
682
原创 JAVA kerberos认证 读写kafka
1 直接上代码:public class JavaKafkaWithKerberos { public static void main(String[] args) throws Exception{ System.setProperty("java.security.auth.login.config", "d:/myconf/jaas.conf"); ...
2020-04-07 18:44:55
1316
原创 Flink读写Kerberos认证Kafka环境。
Flink比较完美的支持kerberos读写Kafka.1flink-conf.yaml , 将如下涉及kerberos的配置注解去除2 代码读写kafka示例如下:def main(args: Array[String]): Unit = { val params: ParameterTool = ParameterTool.fromArgs(args)...
2020-04-07 11:44:34
6215
4
原创 Kafka配置kerberos(CDH)
参考文档:https://www.jianshu.com/p/dd73b318e743 vi jaas.confKafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;renewTicket=true;};vi client...
2020-03-08 23:00:42
2986
原创 flink源码解读--3 CliFrontend.run
参考文档:https://blog.youkuaiyun.com/weixin_43161811/article/details/103152867入口命令(参看第一篇文章):java ClientFrontend run -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jarClientFron...
2020-01-21 18:59:38
670
原创 flink源码解读--2 入口类CliFrontend
参考文章:https://blog.youkuaiyun.com/weixin_43161811/article/details/103151644从上篇文章,我们知道,flink脚本提交后,由CliFrontend main开始执行。/** Submits the job based on the arguments. */ public static void main(final...
2020-01-21 11:04:18
984
原创 flink源码解读--1 命令行提交
1 提交自己打包的流job./bin/flinkrun -c com.tclking.ai.PVUVDayMain -m yarn-cluster examples/batch/WordCount.jar2 flink 脚本内容:target="$0"iteration=0# 判断脚本名合法性while [ -L "$target" ]; do if...
2020-01-21 09:47:46
567
原创 JAVA8 Lamda函数
1 lamda函数概念 简单理解为匿名函数: public int add(int x, int y) { return x + y; }转成 lamda函数:(int x, int y) -> x + y;或者(x, y) -> x + y;编译器可以自动识别参数类型2 lamda类型lamda表达式的类型,叫做“目...
2020-01-20 12:28:58
679
原创 HIVE数据迁移
方案一: distcp,速度超快。1 再旧集群查看数据库表脚本show create table dbname.tablename;2 在新集群建库建表3 老库的hive hdfs目录复制到目标集群distcp在目标环境执行:hadoop distcp hdfs://sourcenamenode:8020/user/hive/warehouse/ml.db/te...
2020-01-02 10:59:08
461
原创 flink水印
1 kafka数据源,设置水印,一般直接在数据源消费者上加载。如下:2 水印并发度设置2.1 对于kafka数据源。 我们设置并发度一般设置topic对应的分区数。如果分区数为2,则为2。如果设置为4, 实际上即时启动了4个task,也只有2个真正消费数据并产生水印。另外2个task一致在等待,不会发出水印。如下图,为分区为2,设置并发度为4的情况,可以看...
2019-12-20 15:59:16
409
原创 windows下搭建tensorflow开发环境
1 安装cuda 10.0下载地址:https://developer.nvidia.com/cuda-toolkit-archive参考文档:https://blog.youkuaiyun.com/weixin_44307764/article/details/94909104https://blog.youkuaiyun.com/weixin_45023983/article/details/991786...
2019-12-06 13:38:34
441
原创 tensorflow on spark安装
基于centos7.5,安装OS时安装包比较齐全。1 Python安装。需要Python 3.5+1.1wget --no-check-certificate https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz1.2 解压编译安装到:/usr/local/python3 ./configure --pr...
2019-12-05 13:41:43
686
原创 flink checkpoint
1 原理flink通过checkpoint来进行状态保存,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态, 保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法,通过checkpoint频率时间定时发送barrier消息。 (分布式快照算)...
2019-11-20 18:59:07
448
转载 Flink内存管理: 网络传输内存network buffer及堆内存管理
1 Flink背压原理任务A写, 任务B读, 2者都是先申请 local buffer pool, 满了之后再向network buffer pool申请。消费下游: local buffer pool和network buffer pool满了之后,发送消息给上游(ResultSubparittion),上有不在发送消息,下游的 input channel将不会接受到新的数...
2019-11-18 20:47:18
3538
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人