
数据分析与机器学习
文章平均质量分 77
菜还膨胀
此人很菜,什么都不敢写
展开
-
线性回归及其实现c++
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。线性回归中的数据呈现线性关系,其表达形式为y = w(T)x+b。其中w为系数向量组,x为特征值向量组,b为常值系数。 我们通常将数据集分为训练集和测试集,使用训练集来确定待定系数,测试集来测试误差,通过代价函数进行优化。 训练模型的一些方法:正规方程法,梯度下降法等...原创 2018-07-17 10:58:46 · 3106 阅读 · 2 评论 -
线性模型附思维导图
线性模型的基本形式 给定d个特征值的示例x=(x1,x2,x3.....xd),xi是x在第i个属性上的取值。线性模型试图通过属性的线性组合来进行预测的函数,其形式为 f(x)=w1x1+w2x2+w3x3+...+wdxd 向量形式为f(x)=w^T*X+b ...原创 2018-07-18 00:21:14 · 2441 阅读 · 0 评论 -
机器学习概述
今日主要了解了机器学习的概述,了解了机器学习的大致内容,对今后几日的学习有了初步的了解。主要的学习的内容如下: 1.什么是机器学习? 机器学习是一门多领域交叉学科,涉及概率论,统计学,微积分等多门学科。专门研究实现使机器模拟或实现人类的学习行为,获取新的知识和技能,并不断通过学习来完善自身的性能。大致分为监督学习,无监督学习,强化学习三类。此次暑期学习小组主要学习监督学习中的线性模型和支持向量机。...原创 2018-07-12 23:40:03 · 361 阅读 · 0 评论 -
机器学习模型评估及思维导图
今日学习对模型的评估与选择,总结如下:1.一些重要基本概念。 错误率:如果在m个样本中有a个样本分类错误,则错误率E=a/m。 误差:学习器(即模型)的实际输出与样本的真实输出之间的差异称为误差 经验误差与泛化误差:学习器在训练集上的误差称为训练误差。而在新样本上的误差为泛化误差。 过拟合与欠拟合:过拟合是机器学习能力过强而将训练样本中的一些自身特点当做了所有潜...原创 2018-07-13 23:37:53 · 1072 阅读 · 0 评论 -
天池新人实战赛数据预处理
1.问题分析 此次实战赛是通过分析给出的用户全集和商品子集来对样本集中的用户购买行为进行预测,基于大数据预测出用户最有可能购买的商品,并以此预测结果制表,作为评估标准。 特征决定了学习器的学习上限,而算法和模型是为了逼近这个上限。因此我们要对出题方给出的数据集进行处理,提取选择特征,构建新的特征。为接下来的模型构建做好特征方面的准备,保证学习器预测的精确。2....原创 2018-08-31 11:40:44 · 1127 阅读 · 5 评论 -
天池新人赛_构造次日购买特征
#构造次日购买特征#导入库文件print('构造次日购买特征')import pandasimport numpyfrom pandas import read_csvfrom pandas import Series#读取并设置数据表df=read_csv('D:\\sample.csv',low_memory=False)df=df.drop(columns= ['Unn...原创 2018-10-09 19:37:54 · 346 阅读 · 0 评论