- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 模型的评估和选择
模型的评估和选择1、精度分类错误的样本数量占样本总数的比例为‘错误率’,若有m个样本,其中a个样本被错误分类,则错误率为E=maE=\frac{m}{a}E=am,相应的‘精度’就等于1-E。一般来说,在训练集上的误差称为训练误差,在新样本上的误差称为泛化误差。我们最终的目的是得到一个泛化误差较低的学习器,然而在很多情况下,我们并不知道新样本。因此,我们只能努力降低训练误差,同时提高模型的泛化能力。2、过拟合与欠拟合我们努力降低学习器的训练误差,因此,学习器会尽可能挖掘出训练样本的内在规律
2021-05-05 11:56:16
570
原创 缺失值处理
缺失值处理在对数据有足够的理解后,是时候给你的机器学习算法准备数据了。大部分的机器学习算法无法在缺失的特征上工作,因此本文将介绍几种常用的缺失值处理方法,并给出代码示例。值得注意的是,缺失值处理是十分常用的操作,因此有必要编写合适的函数,这样就可以在以后其他数据集上使用,也可以累计起一个数据分析的函数库。使用Kaggle上的California Housing Prices数据集作为示例(https://www.kaggle.com/camnugent/california-housing-prices
2021-05-05 11:51:53
593
原创 基于腾讯人口迁徙数据的全国城市网络结构特征分析
基于腾讯人口迁徙数据的全国城市网络结构特征分析1 引 言基于大数据的城市网络研究是近十年来城市研究的新方向,本文基于腾讯人口迁徙数据,从网络分析入手,通过度、转变中心性、转变控制力、等级划分等方面分析网络结构特征。分析表明:(1)度与城市 GDP 具有较强的相关性,在一定程度上表征城市等级和经济发展情况,结合转变中心性和转变控制力进行中心城市评价是具有说服力的。(2)全国城市层级服从金字塔模型,金字塔顶端的城市在资源承载和辐射范围上都远远优于其他城市,城市之间的等级具有较大的差异,但随着一带一路、粤港澳
2021-05-05 11:43:27
4580
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人