
算法
文章平均质量分 75
泰格数据
我们不生产数据,我们只是数据的搬运工
我们不仅是数据搬运工,我们也是数据价值创造者
展开
-
机器学习特征稳定性评估-分布式scala实现
泰格: 士别三日当刮目相待,模型也一样,客流不断变化,特征的分布不断变化,模型的结果分布也会受到影响。所以在工业界中,对线上模型的监控是非常重要的。概述 考察稳定性最好的办法就是抽取另一个时间窗口的数据(最好是最新时间的数据),通过模型在这些新数据上的表现来与之前在训练集和测试集上的表现进行比较,看模型的稳定性,其效果衰减幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较。公式PSI = sum((实际占比-预期占比)* ln(实际占比/...原创 2020-05-31 22:47:22 · 1747 阅读 · 0 评论 -
华为垃圾分类大赛亚军答辩心得和PPT分享
泰格: 19年参加华为垃圾分类CV赛,有幸获得一个亚军,比赛过去有点久了,具体的代码内容就不再分享,分享下当时答辩的PPT,有兴趣的同学欢迎探讨!技巧总结1、10比赛9融合五折交叉、十折交叉后融合,效果特别好2、模型的尝试和选择非常重要,不同的数据和任务模型差异非常大, 并不是根据github或者论文对比里面的准确度。3、融合的方式:加权平均、几何平均,靠上分尝试,在每天有剩余次数 的情况下,做更多的融合尝试4、融合模型之间的差异性,数据处理的差异性,模型基础网络的差异性。...原创 2020-05-29 00:03:24 · 1839 阅读 · 1 评论 -
机器学习模型评估综述-二分多分回归聚类稳定性评分卡特征重要性
泰格: 采菊东篱下,悠然现南山,误入机器歧途,无丝竹案牍渐渐远。盼钟鼓馔玉不足贵之境,望可长醉不复醒之日!概述 模型的评估对于做机器学习是一个很重要的一个领域,所有的模型要想进行评价,必须要有相应的评估指标,这些评估指标经过业务的千锤百炼沉淀了好几十年的!最常见的评估指标,就是准确率、精准率、召回率等,很早之前不懂机器学习的时候,听到别人讲到模型召回率多少,提升了多少,感觉很牛逼,现在听到这些,哇,感觉还是很牛逼。所以有必要详细总结下所有模型评估的方法。...原创 2020-05-28 23:30:11 · 2235 阅读 · 0 评论 -
二分类模型-分布式SPARK效果评估实现代码+混淆矩阵
最近在做一个平台级的项目,为了保证分布式的可扩展性,评估最终用sparkmlib进行模型的评估,sparkmlib里面封装好了二分类、多分类、聚类的通用的评估指标,通用指标实现起来都比较简单。关键点: val metrics=new BinaryClassificationMetrics(scoreAndLable,100) 获取到预测列和标签列,并转化为RDD[double,double]。BinaryClassificationMetrics第二个参数解释:这个一个分箱参数,可能你...原创 2020-05-15 11:01:17 · 1581 阅读 · 0 评论 -
HashMap实现原理分析
http://blog.youkuaiyun.com/vking_wang/article/details/14166593转载 2016-04-25 22:00:19 · 228 阅读 · 0 评论 -
五大常用算法
五大常用算法之一:分治算法分治算法一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)…… 任何一个转载 2016-06-06 22:30:34 · 540 阅读 · 0 评论 -
动态规划算法
五大常用算法之二:动态规划算法一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略 基本思想与分治法类似,也是将待求解的问题分解为若干个子问题(阶段),按顺序求解子阶段,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一转载 2016-06-06 22:30:04 · 261 阅读 · 0 评论 -
动态规划问题实例讲解
代码实现在https://github.com/Jensenczx/CodeEveryday维基百科对动态规划的定义动态规划(英语:Dynamic programming,简称DP)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题[1]和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。动态规划转载 2016-06-07 16:20:31 · 967 阅读 · 0 评论 -
排序算法—快排FastSort
今天介绍快速排序,这也是在实际中最常用的一种排序算法,速度快,效率高。就像名字一样,快速排序是最优秀的一种排序算法。思想快速排序采用的思想是分治思想。快速排序是找出一个元素(理论上可以随便找一个)作为基准(pivot),然后对数组进行分区操作,使基准左边元素的值都不大于基准值,基准右边的元素值 都不小于基准值,如此作为基准的元素调整到排序后的正确位置。递归快速排序,将其他n转载 2016-04-18 17:10:19 · 1128 阅读 · 0 评论 -
经典冒泡排序算法JAVA版本
package com.tiger.Algorithm;public class BubbleSort {public static void main(String[] args) { int[] sortNum={1,5,3,64,6,42,23,43,2,5,2,4,5,6,2,4,4,2,12,63,21,35}; int temp=0;for原创 2016-03-30 17:08:12 · 415 阅读 · 0 评论 -
Halton Sequences霍尔顿序列生成器,计算Pi
这个程序的原理是这样的。假如有一个边长为1的正方形。以正方形的一个端点为圆心,以1为半径,画一个圆弧,于是在正方形内就有了一个直角扇形。在正方形里随机生成若干的点,则有些点是在扇形内,有些点是在扇形外。正方形的面积是1,扇形的面积是0.25*Pi。设点的数量一共是n,扇形内的点数量是nc,在点足够多足够密集的情况下,会近似有nc/n的比值约等于扇形面积与正方形面积的比值,也就是nc/n = 0原创 2016-03-30 17:04:55 · 2581 阅读 · 0 评论