
机器学习
Echoblabla
金融小菜鸡向程序媛的进阶之路
展开
-
机器学习中的调参思想
对于模型调参,第一步是要找准目标:我们要做什么?一般来说,这个目标是提升某个模型评估指标,比如对于随机森林来说,我们想要提升的是模型在未知数据上的准确率(由score或oob_score_来衡量)。找准了这个目标,我们就需要思考:模型在未知数据上的准确率受什么因素影响?在机器学习中,我们用来衡量模型在未知数据上的准确率的指标,叫泛化误差泛化误差当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大,模型的效果不好。泛化误差受到模型的结构(复杂度)影响。看下面这张图,它准原创 2020-07-25 22:55:29 · 356 阅读 · 0 评论 -
数据分析——支持向量机
问题一:哪个平面是划分这两个点的最佳方案对偶问题利用拉格朗日乘子法进行极值的计算问题求解SMO算法问题的重点在于求解a,如何求解a是问题的核心步骤:SMO算法的求解步骤:核函数对于此种情形,已经无法在二维平面进行划分,因此我们采用映射到更高维空间。定理:如果原始样本空间是有限维度,即属性数有限,那么一定存在一个高维特征空间使样本线性可分常用的核函数软间隔与正则化由于经过高维映射后的样本并不一定完全线性可分因此我们将不能完全线性科分的样本的分隔称为软间隔对于软间原创 2020-07-22 19:07:45 · 405 阅读 · 0 评论 -
数据分析——聚类分析
聚类分析是一种无监督学习的分类算法所谓的无监督学习就是在机器学习过程中并无结果数据进行指导。样本是无明确标签的,只能根据样本之间属性关系进行分类。聚类的概念相似性度量算法步骤聚类结果的性能度量K-means优缺点K-Mediods优缺点:层次聚类(系谱聚类)Python实现K-Meansfrom sklearn.datasets import load_irisfrom sklearn.cluster import KMeansiris=load_iris原创 2020-07-20 14:59:41 · 1077 阅读 · 0 评论 -
数据分析——朴素贝叶斯
朴素朴素贝叶斯的基础是贝叶斯定理:贝叶斯定理P(AB)=P(A)P(B|A)P(A|B)=[P(B|A)P(A)]/P(B)在遇到具体情况需要区分不同数据所呈现的类别时,我们需要引用贝叶斯定理。问题在于,当我们再次应用时:实际上这是无法或者很难获得的。因此朴素贝叶斯的朴素之处在于:它假设样本的属性是相互独立的因此我们根据独立得到朴素贝叶斯的表达式:案例判断好瓜坏瓜1、计算P(Xi|Y)f...原创 2020-07-20 12:40:46 · 349 阅读 · 0 评论 -
数据分析——KNN算法
KNN算法的概念KNN算法的计算步骤1、距离2、邻居3、分类算法流程优缺点Python实现原创 2020-07-18 12:48:18 · 332 阅读 · 0 评论 -
数据分析——BP神经网络
BP神经网络的构造机理其中可以调整的参数是r、w、v、thta我们将r、theta称为阈值;w、v称为权值;通过调整这几个参数不断训练缩小误差;从而使得训练集真实值和输出值误差不断缩小;进而才可使测试集预测值更为准确。import pandas as pdimport numpy as npdata_tr=pd.read_csv('./BPdata_tr.txt')yita=0.05#学习速率n=len(data_tr)def sigmoid(x):#网络激活函数 return原创 2020-07-18 12:24:43 · 2190 阅读 · 0 评论 -
数据分析——决策树
决策树的基本概念女孩的相亲对象抉择问题天气情况对是否打高尔夫抉择结果:拆分属性抉择问题理想情况:在拆分过程中,当叶节点只拥有单一类别时,将不必继续拆分。目标时寻找较小的数,希望递归过程尽早停止如果能测量每一节点的纯度,就可以选择能产生最纯子节点的那个属性进行拆分;决策树算法通常按照纯度的增加来选择拆分属性熵值的概念信息增益:对纯度提升的程度天气属性的信息增益:ID3算法的详细实现步骤缺点泰坦尼克号生还者预测我们发现数据的性别还是类型变量需要转化为数值型的数据,ag原创 2020-07-16 19:13:38 · 721 阅读 · 0 评论 -
数据分析——回归分析
性能度量from sklearn.metrics import precision_scorefrom sklearn.metrics import classification_reporty_true=[1,0,1,1,0]#样本实际值y_pred=[1,0,1,0,0]#模型预测值res=precision_score(y_true,y_pred,average=None)#准确率res=classification_report(y_true,y_pred)print(res)原创 2020-07-15 18:01:26 · 647 阅读 · 0 评论 -
数据分析——随机森林
随机森林是bagging算法的典型代表,所谓bagging算法也即随机有放回抽取部分样本进行平行测试,输出平行结果,以少数服从多数原则或者平均原则确定最终结果。与bagging算法相对的就是Boosting算法,boosting算法是一种梯度算法。其以基评估器为基础,对评估存在错误的样本给予更高的权重进行下一层评估由此进行迭代。最终由一个弱学习组合成强学习。其重要代表有adaboost,梯度提升树。随机森林的概念理解随机森林是一片决策树的森林,在多颗决策树的基础上进行分类解决了决策树本身泛化能力弱的原创 2020-07-24 15:44:10 · 1774 阅读 · 0 评论