- 博客(39)
- 收藏
- 关注
原创 论文笔记: iDice: Problem Identification for Emerging Issues
本文提出了iDice算法,用于帮助技术支持工程师识别与**新出现问题(emerging issue)**相关的有效组合的自动化算法。这里将识别属性组合作为一个模式挖掘问题:给定一段时间内的客户问题报告量,目标是搜索一个属性组合,将整个多维时间序列数据集隔离成两个部分:一部分问题量的显著增加,另一部分没有这种显著增加。
2021-12-05 17:19:16
2299
1
原创 K均值(K-Means)聚类算法简介
K均值算法K均值算法是一个经典的,被广泛使用的聚类算法。算法过程K均值算法中首先选择K个初值。K是用户指定的参数,即希望聚成的簇的个数。每个点指派到最近的质心,指派到一个质心的点集为一个簇。然后更新每个簇的质心,直到簇不发生变化,或质心不发生变化(二者等价),结束算法。算法: K均值算法--------------------选择K个点作为初始质心。 (STEP 1)repeat 将每个点指派到最近的质心,形成K个簇。 (STEP 2) 重新计算每个簇的质心。 (STEP
2021-03-30 07:57:24
7267
原创 常见距离的度量及python实现
目录闵可夫斯基距离(Minkowski Distance)堪培拉距离(Canberra Distance)余弦距离(Cosine Distance)汉明距离(Hamming Distance)简单匹配距离(Simple Matching Distance)杰卡德距离(Jaccard Distance)Note闵可夫斯基距离(Minkowski Distance)Minkowski Distance不是一种距离,而是一组距离。两个n维变量A(a1,a2,…,an)与B(b1,b2,…,bn)间的闵可夫斯基
2021-03-27 10:45:55
1854
原创 ADJUSTED BOXPLOT: 偏态分布的异常检测
Boxplot是一个常用的了解数据分布的工具,在数据预处理阶段也常用boxplot剔除离群点,但是当数据是一个偏态分布的时候,boxplot将许多点误分类为离群点。《AN ADJUSTED BOXPLOT FOR SKEWEDDISTRIBUTIONS》是一篇经典的修正boxplot在偏态分布数据上的误报问题的文章。1. 传统boxplot方法对于一组数据Xn={x1,x2,x3,...,xn}X_n=\{x_1,x_2,x_3,...,x_n\}Xn={x1,x2,x3,...,xn},计
2020-06-01 23:42:06
3896
7
原创 Adtributor: Revenue Debugging in Advertising Systems
本文主要解决在广告系统中,当指标异常波动时在和收益相关的指标的各个维度中去定位根因。本文实现了一个名为Adtributor的工具,其中实现了一个属性算法,以及一个可视化的接口。该工具可以帮助故障派出人员快速识别异常的潜在原因。
2020-01-01 23:51:53
3363
3
原创 时间序列之间的相关性检测
为了检测时间序列的相关性,我们经常使用自相关,互相关或归一化互相关。互相关(Cross-Correlation)互相关是两个不同时间序列的比较,以检测具有相同最大值和最小值的指标之间是否存在相关性。例如:“两个音频信号同相吗?”为了检测两个信号之间的相关程度,我们使用互相关。 只需将两个时间序列相乘和相加即可计算得出。在以下示例中,序列A和B是互相关的,但序列C都不与此相关。a = [...
2019-11-18 00:56:53
23795
6
原创 Python模块发布
通过distutils发布模块1. 发布模块1.1 创建setup.py文件setup.py的文件from distutils.core import setupsetup( name="包名", version="版本号", description="模块说明", author="作者", author_email="作者邮箱", url...
2019-10-20 22:52:39
329
原创 统计量MAD
MAD(Median absolute deviation, 中位数绝对偏差)是单变量数据集中样本差异性的稳健度量。mad是一个健壮的统计量,对于数据集中异常值的处理比标准差更具有弹性,可以大大减少异常值对于数据集的影响。
2017-04-20 10:34:37
15022
转载 PCA数学原理
PCA(主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。
2016-10-09 16:08:31
576
原创 连续属性离散化
离散化技术分类连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 本文介绍了几种监督离散化和非监督离散化的方法。
2016-08-07 17:17:07
12557
原创 用ggplot2为时间序列数据绘图
在R中用ggplot()函数为时间序列类型的数据绘图时,发现ggplot()无法识别ts类型的数据,这时候就可以先将时间序列类型拆成数据框类型然后在绘图。
2016-07-07 00:13:30
15029
原创 最小二乘法
在现实生活中存在着大量的数量之间的相关关系,比如人的身高和体重,钻石的价格和体积、克拉数,房价和房屋位置、面积、朝向等等。我们可以借助统计学中的回归模型,通过一些可以观测到的值(观测变量、自变量)来预测另外一些不容易观测到的值(响应变量、自变量)。
2016-07-06 20:28:00
1016
转载 是什么阻碍了你的机器学习目标?
我收到过许多想开始学习机器学习的开发者和学生的邮件。我问他们的第一个问题是:是什么阻止了你开始学习?我试图找出让他们挣扎的核心原因,大多数时候都是一些自我限制的想法在阻止他们前进。这篇文章里我想谈谈一些在我和学生的邮件来往和讨论中发现的一些自我限制的想法。也许在这些想法里面你也会发现自己的影子。如果这样的话,我希望你能挑战自己的这些设想。自我限制的想法自我限制的想法
2015-04-22 14:13:08
662
原创 【算法导论】插入排序
/*《Introduction to Algorithms(second edition)》 chapter2,INSERTION_SORT()author:eatondate:2014-9-14*/#include #include #include #define MAX 50typedef struct{ int arr[MAX+1]; int l
2014-09-18 15:41:45
882
原创 静态表查找(顺序查找,二分查找,斐波那契查找)
/*静态表查找:顺序查找,二分查找,斐波那契查找运行环境:VS2010*/#include #include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int key[MAXSIZE + 1
2014-06-03 12:11:53
825
原创 堆排序
/*堆排序VS2010*/#include #include #include #include #define OK 1#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int value; int index;}RedType;typedef struct{ RedType
2014-05-23 09:28:39
610
原创 交换排序(冒泡排序,快速排序)
/*交换排序:冒泡排序,快速排序运行环境:VS2010*/#include #include #include #include #define OK 1#define TRUE 1#define FALSE 0#define MAXSIZE 50typedef struct{ int value;}RedType;typedef struct{ Red
2014-05-23 09:27:59
773
原创 插入排序(直接插入排序,折半插入排序,2路插入排序,希尔排序)
/*插入排序:直接插入排序,折半插入排序,2路插入排序,希尔排序将数据由小到大排列运行环境:VS2010*/#include #include #include #define OK 1#define ERROR 0#define MAXSIZE 50typedef struct{ int value;}RedType; typedef struct{ R
2014-05-23 09:26:52
738
原创 线索二叉树
/* 线索二叉树 运行环境:vs2010*/#include #include #include #include #define NIL '#'#define OK 1#define ERROR 0typedef struct thread_bitree_node thrbitree;typedef enum{ LINK, //指针 THREAD //线
2014-05-16 18:16:46
598
原创 二叉树链式存储的实现
//filename:bitree.h#include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define NIL '#' //定义'#'为空节点typedef struct queue_node qnode;typedef struct bitree_nod
2014-05-16 18:15:51
691
原创 稀疏矩阵的转置
//稀疏矩阵的转置#include #include #include #define ELEM_TYEP int#define MAX_SIZE 100typedef struct{ int row; //矩阵中某一元素的行数 int col; //列数 ELEM_TYEP elem; //元素值}elem;typedef struct { elem d
2014-05-15 09:38:09
792
原创 多维数组的顺序表示
多维数组节点,有四个元素struct array { int *base; //存放数组的元素的基地址 int dim; //表示多维数组的维数 int *bounds; //表示每一维的长度 int *constants; //存放数组映象函数常量基址
2014-05-15 09:36:59
734
原创 循环队列的实现(C语言)
/* 循环队列 VS2010 调试*/#include #include #include #define MAX_SIZE 6#define TRUE 1#define FALSE 0#define OVERFLOW 0#define OK 1#define ERROR 0typedef struct seq_queue{ int front; int r
2014-05-14 15:03:38
700
原创 带头结点的链队列实现(C语言)
/* 带头结点的链队列 vs2010 调试*/#include #include #include #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0typedef struct queue_node qnode;typedef struct queue_node{ int data; qnode
2014-05-14 15:02:18
851
原创 计算中缀表达式的值
首先,将中缀表达式转换成后缀表达式,用压栈的方法:1.遇到操作数,直接输出;2.栈为空时,遇到运算符,入栈;3.遇到左括号,将其入栈;4.遇到右括号,执行出栈操作,直到弹出栈的元素是左括号,左括号不输出;5.遇到其他运算符'+''-''*''/'时,弹出所有优先级大于或等于该运算符的栈顶元素,然后将该运算符入栈;6.遇到结束符后将栈中的元素依次出栈,输出。然后计
2014-05-14 14:58:48
1022
原创 双指针不带头结点的链栈的实现(C语言)
/* 双指针 不带头结点的链栈 VS2010 调试*/#include #include #include #define TRUE 1#define FALSE 0#define ERROR -1#define OK 1struct Node{ int data; struct Node *next;};struct LStack{ struct Nod
2014-05-12 09:21:38
966
原创 顺序栈的实现(C语言)
/*顺序栈VS2010 调试*/#include #include #include #define TRUE 1#define FALSE 0#define STACK_INIT_SIZE 100#define STACKINCREASEMENT 10struct SeqStack{int *elem;int top;int MAXNUM;};//初始化栈int init_seq_stack(s
2014-05-12 09:19:38
1027
原创 线性表——带头结点单链表的实现
/* 带头结点的单链表 vs2010 调试*/#include #include #include typedef struct LinkNode{ int num; struct LinkNode *next;};//获得链表长度int get_length(struct LinkNode *L){ struct LinkNode *trace = L; i
2014-05-09 21:54:10
1045
原创 线性表——顺序表的实现
/* 顺序表 VS2010调试*/#include #include #include #include #define LIST_INIT_SIZE 50struct SeqList{ int *elem; int length; int max_size;};//初始化顺序表int fnInitList(struct SeqList *L){
2014-05-09 21:51:47
621
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人