
数据科学
程序员杂谈
自我评价
诚实信用 勤奋刻苦 有较强的组织能力和团队意识
责任心强 有创新精神 自学能力较好
精通seo优化
展开
-
精通数据科学:从线性回归到深度学习-学习笔记
由于前两章节是基础,就不在描述了。第三章,数学基础: 3.1矩阵和向量空间 标量、向量与矩阵 特殊矩阵 矩阵运算 代码实现 向量空间 3.2 概率:量化随机 定义概率:事件和概率空间 条件概率:信息的价值 随机变量:...原创 2018-11-14 14:00:55 · 1360 阅读 · 0 评论 -
深度神经网络
神经网络是非常复杂的模型,容易一起过拟合问题。防止过拟合最直接的方法就是在模型的损失函数里面加入惩罚项,在大型神经网络,还需要试用特殊的dropput方法。这个方法将在训练神经网络的过程中,随机的删掉一些神经元,防止模型过度优化。经典的全连接神经网络无法模拟人眼局部识别和模糊处理的能力。卷积神经网络,这个模型在全连接神经网络的基础上增加了卷积层和池化层,其中卷积层和池化层由于局部连接,有效的减...原创 2019-01-07 12:26:04 · 641 阅读 · 0 评论 -
Pipline(流水线)和主成分分析
Pipline(流水线),这个模型的理论基础是联结主义,从工程实现的角度来讲,我们首先调用spectral embedding 对训练数据做特征提取,再调用K-means完成最后的模型预算,这是pipeline的实际理念。一个piipeline有n个模型顺序组成,其中前n-1个模型被称为Transformer,主要作用是对数据进行特征提取,最后一个模型被称为Estimator,主要作用是在特征的...原创 2018-12-25 18:22:25 · 1210 阅读 · 0 评论 -
非监督式学习:聚类和降为
聚类主要的三种模型:K-means,混合高斯以及谱聚类 K-means是非常简单和直观的聚类,他用欧式距离来度量数据间的相似度。类似画圈圈的方法来完成聚类运算。它隐含的假设是数据的各维度是均质的,应用范围比较窄。 为了解决引用范围比较窄的问题,我们讨论混合高斯模型,它是一个生成式模型,是二次判别分析的非监督版本。混合高斯对聚类的处理可以形象的理解为“画椭圆”,因此,k-means其实是...原创 2018-12-25 11:52:04 · 490 阅读 · 0 评论 -
生成式模型:信息量化的价值-总结
生成式模型并不是从自变量出发对北语测量搭建模型,他的建模理念是通过模型理解数据是如何产生的,并以此为基础,借助贝叶斯框架对位置数据做预测。模型过程更复杂。三种从简单到复杂的模型:朴素贝叶斯,判别分析,隐马尔可夫模型朴素贝叶斯模型假设性最强,它假设特征是条件独立的。虽然假设很牵强,但朴素贝叶斯在文本分类上的效果不错,它可做原子模型与其他模型进行联结组合成更加复杂的模型。判别分析模型放松了特...原创 2018-12-20 12:24:36 · 606 阅读 · 0 评论 -
支持向量学习机总结
支持向量学习机总结: 监督式学习重点介绍了支持向量学习机、核函数、决策树、随机森林及GBTs 支持向量学习机的出发点是解决线性可分或近似线性可分的问题。这个模型很重要的隐含假设:每个数据点的权重并不相同。支持向量机在训练时并不考虑所有数据,而只关心其中被直线分开的“异常点”。 为了支持向量学习机能处理非线性问题,引入了核函数的概念。核函数能高效的完成空间变换,特别是从低...原创 2018-12-14 12:34:23 · 441 阅读 · 0 评论 -
计量经济学搭建模型总结
首先:特称处理。模型中的变量能否直接运算可以分为两类。如果能够直接运算,则为定量变量。对于这类变量,可以直接在模型里使用它。但这样的使用方法隐含了变量的边际效应恒定这样一个假设,当需要除去这个隐藏的变量时,则可以将定量变量通过分段的方式转换为定性变量使用。如果一个变量不能直接运算,则为定性变量。为了能在模型里使用这列变量,通常将其转换为多个虚拟变量使用。但对于有序的定性变量,这样处理会失掉...原创 2018-12-07 18:30:58 · 4630 阅读 · 0 评论 -
逻辑回归模型总结-机器学习
逻辑回归被广泛的用来解决分类问题。由于分类是非线性问题,所以建模的主要难点是如何把非线性问题转换为线性问题。在模型评估层面,讨论了两类相互有关联的评估指标。对于分类问题的预测结果,可以定义为相应的查准查全率。对于基于概率的分类模型,还可以绘制它的ROC曲线,以及计算曲线线面的面积AUC。以下来源百度百科ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐...原创 2018-11-29 18:37:15 · 875 阅读 · 0 评论 -
线性回归:模型之母--学习小结
线性回归模型分别从机器学习和统计学习的角度,介绍了模型假设、参数估计和结果分析;并引出了数据科学中的常见的错误:过度拟合和模型幻觉。针对这两种错误,有相应成熟的解决方案:交叉验证,假设验证和惩罚项。这些方法不仅仅对线性回归,对其他模型也普遍使用的。...原创 2018-11-22 13:58:20 · 383 阅读 · 0 评论 -
交叉验证
交叉验证目的:防范过拟合我们把数据集分成训练集、验证集和测试集;训练集用来估算模型参数,验证集用来选择超参数,测试集用来评估模型效果。 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测...原创 2018-11-21 20:58:37 · 1274 阅读 · 0 评论 -
P-value
P值在数学上对应着分位数方程;应用(百度百科)统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P <0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。实际上,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。P < 0.01 时样本间的差异比P < 0.05 时更大,这种说法是错误的。统计结果中显...原创 2018-11-21 20:26:16 · 2740 阅读 · 0 评论 -
微积分简单理解
微积分主要包含两个互不的方面: 导数(微分):主要研究函数在局部的变化速率。如根据物体的位置函数求其移动速度。被广泛的应用于工程实现。 积分:常被用于计算函数在一段范围内的累积效应。针对连续型随机变量,根据他的概率密度函数,计算随机变量落在某区间内的概率。 主要应用理论研究。导数和积分:位置、速度 位置l(t)为t时刻离起点的距离 速度v(t)为t时刻的速度 ...原创 2018-11-21 12:18:35 · 11542 阅读 · 0 评论 -
特殊矩阵及运算
方阵是行数与列数相等的矩阵。三种:单位矩阵:矩阵的对角线等于1,其他元素等于0,为In. In = =(1{i=j}) ∈R n*n对角矩阵:除矩阵的对角线元素外,其他元素都等于0 ,记为 diagram(d1,d2,。。。dn) 三角矩阵:可以分为上三角矩阵和...原创 2018-11-18 17:28:10 · 2206 阅读 · 0 评论 -
数据挖掘流程
一、读取数据 读取数据,并展示 统计数据各项指标 明确数据规模与要完成的任务二、特征理解分析 单特征分析 多变量统计分析,综合考虑多种情况的影响 统计绘图得出结论三、数据清洗与预处理 对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析特征之间的相关性四、建立模型 特征数据与标签准备...原创 2019-03-20 12:53:15 · 676 阅读 · 0 评论