
dataAnalysis
文章平均质量分 66
Shaing_Saying
IT女 数学 python 音乐推荐
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据中缺失值的处理
删除记录数据插补插补方法:常用的插补方法:均值/中位数/众数插补、使用固定值、最近临插补、回归方法、插值法拉格朗日插值法:对于平面上已知的n个点(无两点在一条直线上)可以找到一个n-1次多项式,使次多项式曲线过这n个点。将缺失的函数值对应的点x带入插值多项式得到缺失值的近似值。缺点:拉格朗日插值公式结构紧凑,在理论分析中很方便,但是当插值节点增减时,插值多项式就会随之变化,这在实际计算中很不方便,...原创 2018-05-13 14:12:36 · 1616 阅读 · 0 评论 -
欠拟合、过拟合以及正则化
无论在深度学习还是奇迹学习建模当中都可能会遇到两种常见结果,一种是过拟合(over-fitting),另外一种是欠拟合(under-fitting).过拟合与欠拟合的理解:图1 欠拟合、正确拟合、过拟合线性回归的例子图2 欠拟合、正确拟合、过拟合逻辑回归的例子打个模型拟合的例子,假如需要建立一个识别狗狗的例子,需要对模型进行训练。过拟合:恰好训练样本中的所有训练图片都是二哈,那么经过多次迭代训练之...原创 2018-05-14 20:54:21 · 1285 阅读 · 0 评论 -
ROC曲线理解
ROC(receiver operator characteristic curve, ROC)曲线:即受试者工作特征曲线,是反映敏感度和特异度连续变量的综合指标,用作图法展示两度之间的关系。作图方法:在相关临床研究报告中,若有一个ROC曲线图,将会给人深刻印象,具体做法是:实验结果为计量资料即连续变量,至少计算5个临界点的指标,以敏感度(真阳性率)为Y轴,1-特异度(假阳性率)为X轴,将各点连成...转载 2018-05-15 21:20:41 · 21403 阅读 · 1 评论 -
数据规范化(归一化)、及Z-score标准化
数据规范化数据规范化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。如将工资收入属性值映射到[-1, 1]或者[0, 1]内。数据规范化对于基于距离的挖掘算法尤为重要。(1)最小-最大规...原创 2018-05-15 22:11:58 · 157341 阅读 · 10 评论 -
Pandas DataFrame (Merge、join)
Merge通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merge</Strong>,可以根据一个或多个键将不同的DataFrame中的行连接起来语法为:Merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False,...原创 2018-05-16 15:38:25 · 1792 阅读 · 0 评论