- 博客(71)
- 资源 (9)
- 收藏
- 关注
原创 机器学习特征稳定性评估-分布式scala实现
泰格: 士别三日当刮目相待,模型也一样,客流不断变化,特征的分布不断变化,模型的结果分布也会受到影响。所以在工业界中,对线上模型的监控是非常重要的。概述 考察稳定性最好的办法就是抽取另一个时间窗口的数据(最好是最新时间的数据),通过模型在这些新数据上的表现来与之前在训练集和测试集上的表现进行比较,看模型的稳定性,其效果衰减幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较。公式PSI = sum((实际占比-预期占比)* ln(实际占比/...
2020-05-31 22:47:22
1746
原创 华为垃圾分类大赛亚军答辩心得和PPT分享
泰格: 19年参加华为垃圾分类CV赛,有幸获得一个亚军,比赛过去有点久了,具体的代码内容就不再分享,分享下当时答辩的PPT,有兴趣的同学欢迎探讨!技巧总结1、10比赛9融合五折交叉、十折交叉后融合,效果特别好2、模型的尝试和选择非常重要,不同的数据和任务模型差异非常大, 并不是根据github或者论文对比里面的准确度。3、融合的方式:加权平均、几何平均,靠上分尝试,在每天有剩余次数 的情况下,做更多的融合尝试4、融合模型之间的差异性,数据处理的差异性,模型基础网络的差异性。...
2020-05-29 00:03:24
1839
1
原创 机器学习模型评估综述-二分多分回归聚类稳定性评分卡特征重要性
泰格: 采菊东篱下,悠然现南山,误入机器歧途,无丝竹案牍渐渐远。盼钟鼓馔玉不足贵之境,望可长醉不复醒之日!概述 模型的评估对于做机器学习是一个很重要的一个领域,所有的模型要想进行评价,必须要有相应的评估指标,这些评估指标经过业务的千锤百炼沉淀了好几十年的!最常见的评估指标,就是准确率、精准率、召回率等,很早之前不懂机器学习的时候,听到别人讲到模型召回率多少,提升了多少,感觉很牛逼,现在听到这些,哇,感觉还是很牛逼。所以有必要详细总结下所有模型评估的方法。...
2020-05-28 23:30:11
2235
原创 聚类模型评估综述-兰德指数的公式理解及scala版本实现
概述聚类的评估的指标,大方向是分为内部指标和外部指标。内部指标:包括轮廓系数、Calinski-Harabaz 指数 等,内部指标是在开发阶段用的,一般用来选择聚类的个数。外部指标:分为两种:有标签的结果评价:包括 兰德指数、纯度、互信息、v-measure无标签结果评估:于聚类中心的平均距离等兰德指数给定nn个对象集合S={O1,O2,....,On}S={O1,O2,....,On},假设U={u1,...,uR}U={u1,...,uR}和V={v1,...,v..
2020-05-27 23:02:14
2516
原创 KAFKA-使用代理进行跨网络访问采坑记录
问题背景:client机器是在内网的,无法直接访问到kafka的机器,所以需要走个代理机器,代理服务器可以同时被内网和外网访问。在外网中,kafka集群都已经搭建好,生产者、消费者都可以正常运行。问题来了:内网的client机器通过nginx代理访问kafka时候查看topic列表正常:kafka-topics.sh --zookeeper localhost:2181 --list创建topic正常:kafka-topics.sh --zookeeper localhost:2181
2020-05-22 00:05:14
6186
原创 SPARK生产者写入KAFKA消息-代码及踩坑记录
背景是: 项目通过大数据spark做模型的评估,评估代码为scala,评估的结果需要通过kafka消息队列进行中转,于是需要通过spark去连接kakfa队列,作为生产者像kafka队列中传送消息。 直接先上代码:kafka生产者代码:package com.tigerimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig,...
2020-05-17 23:09:10
1237
1
原创 二分类模型-分布式SPARK效果评估实现代码+混淆矩阵
最近在做一个平台级的项目,为了保证分布式的可扩展性,评估最终用sparkmlib进行模型的评估,sparkmlib里面封装好了二分类、多分类、聚类的通用的评估指标,通用指标实现起来都比较简单。关键点: val metrics=new BinaryClassificationMetrics(scoreAndLable,100) 获取到预测列和标签列,并转化为RDD[double,double]。BinaryClassificationMetrics第二个参数解释:这个一个分箱参数,可能你...
2020-05-15 11:01:17
1581
转载 ES集群运维命令整理
ES 2.0 集群运维命令整理原文地址:http://blog.youkuaiyun.com/ybtsdst/article/details/51907020_cat命令_cat用于查看集群当前状态,涉及到shard/node/cluster几个层次基本参数verbose: 显示列名, 请求参数为v示例: curl localhost:9200/_cat
2018-01-30 15:25:22
2927
转载 tez 编译详解
Tez 0.7和0.8编译转载2016-03-31 00:23:39标签:tezhadoop在tez编译过程中会遇到各种各样的问题,如果你是编译0.5的,因为0.5中没有tez-ui所以编译过程中基本没有什么问题,先准备环境1、linux 环境,我的是centos6.4 32位的2、可编译的maven环境 我这边用得maven3.3.9的
2017-11-19 21:53:27
2899
2
原创 MYSQL主备同步问题(1032 1036)解决方法
最近MySQL 遇到了同步问题,现整理一下常遇到的错误的解决方法,备用。方法一:手动设置动态参数 sql_slave_skip_counter我常用的脚本:stop slave sql_thread;set global sql_slave_skip_counter=1;start slave sql_thread;这个要 根据具体的错误来判定,一般用于
2017-06-19 21:08:39
1178
转载 高可用MySQL搭建
温习《高性能MySQL》的复制篇.1 复制概述 Mysql内建的复制功能是构建大型,高性能应用程序的基础。将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件,并维护文件的一个
2017-05-10 17:09:46
552
转载 HBASE-region的SPLIT策略
Hbase 0.94.0版本中,对于region的split方式引入了一个非常方便的SplitPolicy,通过这个SplitPolicy,可以主动的干预控制region split的方式。在org.apache.Hadoop.hbase.regionserver包中,可以找到这么几个自带的splitPolicy: ConstantSizeRegionSplitPolicy, Increasi
2017-04-19 17:53:10
872
转载 JAVA集合缓存查询引擎CQengine使用范例
1个高性能的Java 集合搜索工具。使用它,可以用类似sql的语句对Java集合进行检索,且延迟极低。作者对其优点的描述是:每秒百万次的查询,查询延迟在微秒范围内,转移数据库的查询带宽,扩展应用层,是数据库查询速度的千倍,即使在低端硬件上。关于cqengin和传统java 集合查询的性能比较dzone.com: Comparing the search performance of
2017-03-07 22:11:59
2961
原创 GANGLIA监控原理及常见问题
2 原理Ganglia项目是由加州大学发起的,现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。同时具有很好的扩展性,允许用户加入自己所要监控的状态信息。2.1 ganglia工作原理
2017-02-14 10:35:34
1828
原创 HBase常见性能问题及解决方案
HBase是一个相对较复杂的分布式系统,并发写入的性能非常高。然而,分布式系统从结构上来讲,也相对较复杂,模块繁多,各个模块之间也很容易出现一些问题,所以对像HBase这样的大型分布式系统来说,优化系统运行,及时解决系统运行过程中出现的问题也变得至关重要。正所谓:“你”若安好,便是晴天;“你”若有恙,我便没有星期天。历史现状HBase交接到我们团队手上时,已经在线上运行有一大段时间
2017-01-08 10:10:15
18183
2
原创 SHELL字符串处理
Linux 的字符串截取很有用。有八种方法。假设有变量 var=http://www.aaa.com/123.htm.1. # 号截取,删除左边字符,保留右边字符。复制代码 代码如下:echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.aaa.co
2016-11-18 13:58:05
416
原创 HBASE性能优化之最佳内存实践
最近生产上rs服务频繁挂,都是因为gc时间过久导致的session超时,其实服务是好的,只是被zk认为死了,所以rs自己也就把自己kill了 首先会考虑到调高Session的容忍度,默认180000其实这个回话有效期已经够长的了,但是有的集群是可以 降低了这个值,可能会造成Session 超时,这个参数是 zookeeper.session.timeout 默认18000。
2016-11-09 00:22:24
11603
原创 HBASE我遇坑之client.AsyncProcess: #1, waiting for 5012 actions to finish
项目使用phoenix连接HBASE,数据用spark处理后通过phoenix批量插入到HBASE中,其中,提交频率为5000条提交一次 发现插入表大的时候,速度变慢,查看日志发现如下线索:client.AsyncProcess: #1, waiting for 5012 actions to finish 查看网上很多线索,主要有几种解释:一种是ZK的
2016-11-06 21:48:06
16110
3
转载 HBase的Block Cache实现机制分析
本文结合HBase 0.94.1版本源码,对HBase的Block Cache实现机制进行分析,总结学习其Cache设计的核心思想。1. 概述HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读。写请求会先写入Memstore,Regionserver会给每个region提供一个Memstor
2016-11-01 23:42:31
404
原创 HBASE配置项完整版
hbase.tmp.dir:本地文件系统的临时目录,默认是java.io.tmpdir/hbase−hbase.rootdir:hbase持久化的目录,被所有regionserver共享,默认${hbase.tmp.dir}/hbase,一般设置为hdfs://namenode.example.org:9000/hbase类似,带全限定名;hbase.cluster.distributed
2016-11-01 22:23:27
692
转载 Hadoop元数据namenode的高可用原理
一、什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件
2016-10-26 11:16:52
2092
原创 HBASE性能调优
一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。 2)、hbase.h
2016-10-18 22:32:04
3945
转载 SPARK性能建议2
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速
2016-09-29 00:20:37
445
原创 SPARK优化建议
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数Spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:s
2016-09-28 23:51:16
332
转载 HBase架构精讲
前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译、半原创吧。HBase架构组成HBase采用Mas
2016-08-30 15:52:08
393
原创 HADOOP自带测试类介绍及使用
一. Hadoop基准测试Hadoop自带了几个基准测试,被打包在几个jar包中。本文主要是cloudera版本测试[hsu@server01 ~]$ ls /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/lib/hadoop-0.20-mapreduce/hadoop* | egrep "examples|test"/opt/clou
2016-08-14 14:33:45
6512
原创 动态添加HDFS节点
本文主要从基础准备,添加DataNode和添加NodeManager三个部分详细说明在Hadoop2.6.0环境下,如何动态新增节点到集群中。基础准备在基础准备部分,主要是设置hadoop运行的系统环境修改系统hostname(通过hostname和/etc/sysconfig/network进行修改)修改hosts文件,将集群所有节点hosts配置进去(集
2016-08-14 11:28:14
2543
原创 HIVE 安装指南
1、安装mysql 并配置库和用户安装mysql详见我另一篇文章:http://blog.youkuaiyun.com/xiefu5hh/article/details/52191488 建立用户hive 并建立库 hive_meta sht-sgmhadoopnn-01:mysqladmin:/usr/local/mysql:>mysql -uroot -pmysql
2016-08-12 17:27:47
283
原创 HBASE 错误及解决办法
java.io.IOException: Call to /192.168.2.6:9000 failed on local exception: java.io.IOException: Broken pipehbase启动可能会出错导致失败,java.io.IOException: Call to /192.168.2.6:9000 failed on local except
2016-08-12 15:40:55
2618
原创 zookeeper 安装配置指南
http://zookeeper.apache.org/releases.html#download1.在namenode机器下,配置zookeeper,先解压安装包,使用命令:tar -zxvf zookeeper-3.4.4.tar.gz 2.进入zookeeper的配置目录,首先把zoo_sample.cfg
2016-08-12 15:30:05
240
原创 ubuntu下MYSQL安装部署及常用命令
1.直接通过apt-get安装mysql: sudo apt-get install mysql-server mysql-client把客户端和服务一起安装安装时候要输入root密码,要记住....2.配置mysql配置文件位置:/etc/mysql/my.cnf修改以下配置,注释掉:bind-address 防止远程无法访问其他配置自己修改3.
2016-08-12 14:53:23
296
转载 HBASE入门概念和基本操作命令
1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。2. HBase的表结构 HBase以表的
2016-08-11 18:23:42
519
原创 HADOOP的本地库(NATIVE LIBRARIES)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库
2016-08-05 15:19:33
822
转载 利用Keepalived+mysql构建高可用MySQL双主自动切转
关于MySQL-HA,目前有多种解决方案,比如heartbeat、drbd、mmm、共享存储,但是它们各有优缺点。heartbeat、drbd配置较为复杂,需要自己写脚本才能实现MySQL自动切换,对于不会脚本语言的人来说,这无疑是一种脑裂问题;对于mmm,生产环境中很少有人用,且mmm管理端需要单独运行一台服务器上,要是想实现高可用,就得对mmm管理端做HA,这样无疑又增加了硬件开支;对于共享存
2016-07-19 17:19:50
427
转载 MapReduce:详解Shuffle过程
原文评论不错:http://langyu.iteye.com/blog/992916?page=3#comments/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我
2016-07-19 11:36:14
223
转载 Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出现的
2016-07-19 10:27:41
277
转载 Redis和Memcached的区别
Redis的作者Salvatore Sanfilippo曾经对这两种基于内存的数据存储系统进行过比较:Redis支持服务器端的数据操作:Redis相比Memcached来说,拥有更多的数据结构和并支持更丰富的数据操作,通常在Memcached里,你需要将数据拿到客户端来进行类似的修改再set回去。这大大增加了网络IO的次数和数据体积。在Redis中,这些复杂的操作通常和一般的GET/SET
2016-07-04 21:59:25
233
原创 REDIS从LINUX文件写入批量数据
cat data.txt | redis-cli --pipe附从MYSQL迁移的一个高效技巧!在把一个大表从 MySQL 迁移到 Redis 时,你可能会发现,每次提取、转换、导入一条数据是让人难以忍受的慢!这里有一个技巧,你可以通过使用管道把 MySQL 的输出直接输入到 redis-cli输入端,这可以使两个数据库都能以他们的最顶级速度来运行。使用了这个技术,
2016-07-02 20:32:44
2079
转载 REDIS性能调优说明
内存管理优化 Redis Hash是value内部为一个HashMap,如果该Map的成员数比较少,则会采用类似一维线性的紧凑格式来存储该Map, 即省去了大量指针的内存开销,这个参数控制对应在redis.conf配置文件中下面2项:hash-max-zipmap-entries 64 hash-max-zipmap-value 512 当value
2016-07-02 20:20:33
2762
转载 REDIS入门教程
http://www.yiibai.com/redis/redis_quick_guide.htmlRedis 有三个主要使其有别于其它很多竞争对手的特点:Redis是完全在内存中保存数据的数据库,使用磁盘只是为了持久性目的; Redis相比许多键值数据存储系统有相对丰富的数据类型; Redis可以将数据复制到任意数量的从服务器中;
2016-07-02 14:28:39
378
华为垃圾分类大赛亚军答辩PPT
2020-05-31
Teradata SQL基础教程
2016-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人