
概率论与数理统计
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
归一化方法
1、线性函数归一化(Min-Max scaling)线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下:2、0均值标准化(Z-score standardization)0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集,归一化公式如下:该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得原创 2017-07-01 21:14:35 · 1109 阅读 · 0 评论 -
离散化特征的方法
在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,模型会更稳定连续性变量转化成离散型变量大致有两类方法:(1)卡方检验方法;(2)信息增益方法;一: 卡方检验(X2检验)方法1.1 分裂方法1.2 合并方法分裂方法,就是找到一个分原创 2017-07-01 21:16:07 · 2239 阅读 · 0 评论 -
ROC和AUC
很多时候我们都用到ROC和AUC来评判一个二值分类器的优劣,其实AUC跟ROC息息相关,AUC就是ROC曲线下部分的面积。既然有了ACC为什么要有ROC呢(既生瑜何生亮呢)我们知道,我们常用ACC准确率来判断分类器分类结果的好坏,既然有了ACC为什么还需要ROC呢,很重要的一个因素是实际的样本数据集中经常会出现数据偏斜的情况,要么负类样本数大于正类样本数,要么正类样本数大于原创 2017-07-01 21:16:56 · 478 阅读 · 0 评论 -
线性回归和逻辑回归
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归线性模型函数,向量表示形式:一个含未知参数的线性模型,一堆观测数据,其模型与数据的误差最小的形式,模型与数据差的平方和最小:原创 2017-07-01 21:25:47 · 773 阅读 · 0 评论 -
正则项的用处
在量子力学理论中,会遇到很多很显然的分歧,比如物理中的质量肯定是有限的,而我们会遇到一些无限的质量问题。这种显然的分歧就需要我们提出来一些新的技术问题来解决它们。显然,我们需要一些方法对这种分歧问题就行加减乘除操作,最终得到有限的答案。为了这样做,我们需要一个“正则”这个分歧,以至于可以让这个分歧变得比较显然的有限以至于我们可以操作它。正则项真正需要做的就是对这个分歧问题O引入一个参数,我们...转载 2017-02-27 23:03:08 · 2338 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。 可见状态链隐含状态链 举一个例子一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京...原创 2017-10-03 16:12:31 · 497 阅读 · 0 评论 -
统计语言模型
语言模型就是用来计算一个句子的概率的模型,即P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。 举个音字转换的例子来说,输入拼音串为nixianzaiganshenme,对应的输出可以有多种形式,如你现在干什么、你西安再赶什么、等等,那么到底哪个才是正确的转换结果呢,利用语言模型,我们知道前者的概率大于后者,因...原创 2017-10-03 16:13:52 · 473 阅读 · 0 评论