
机器学习
文章平均质量分 94
编程小问号
这个作者很懒,什么都没留下…
展开
-
GitHub上Top20个 Python 语言机器学习项目
1. Scikit-learnwww.github.com/scikit-learn/scikit-learnScikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python nume转载 2016-01-27 11:30:59 · 2761 阅读 · 0 评论 -
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客
菜鸟学概率统计——最大似然估计(MLE) - IMAX - IMAX 的博客 说的通俗一点啊,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。> 基本思想 当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟...转载 2018-04-18 17:36:02 · 926 阅读 · 0 评论 -
中文分词项目(开源/API接口)总结
1 ) ICTCLAS 最早的中文开源分词项目之一,由中科院计算所的张华平、刘群所开发,采用C/C++编写,算法基于《基于多层隐马模型的汉语词法分析研究》。其中开源版本为FreeICTCLAS,最新API调用版本为NLPIR/ICTCLAS2014分词系统(NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPI转载 2018-01-31 14:07:07 · 681 阅读 · 0 评论 -
SnowNLP:中文文本处理Python库
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。from s转载 2018-02-01 16:02:45 · 2005 阅读 · 0 评论 -
算法&模型
在行业设备大数据平台建设中,势必要用到大数据技术,而大数据技术中,机器学习与数据挖掘算法是重要的一环,我们通过这些算法与模型对设备的故障进行监控与预测,对设备技改需求进行预测,对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。 在进行数据挖掘时,首先要进行商业理解,即我们需要达到什么目的,解决什么问题;其次需要进行数据理解,我们需要哪些数据以转载 2016-07-08 18:49:37 · 904 阅读 · 0 评论 -
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱前言 本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation)、交叉校验(Cross-validation)、超参数调优(hyperparameter tuning)等。这三个术语都是转载 2016-07-08 18:11:31 · 2420 阅读 · 0 评论 -
准确率(accuracy),精确率(Precision),召回率(Recall)和综合评价指标(F1-Measure )
自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。 现在我先假定一个具体场景作为例子:转载 2016-07-08 17:54:40 · 25154 阅读 · 2 评论 -
交叉验证--模型参数选择
机器学习中有监督的学习,通过标注data训练model时,通常采用交叉验证的方法选择模型参数。将有标注的data分为训练集,(交叉)验证集,测试集三份:机器学习的model中,有些模型参数是需要事先指定的,在training之前就是一个常量(与在training过程中通过minimize目标函数求得的参数不同),根据经验指定参数不一定靠谱,所以需要在training之前,做转载 2016-07-06 14:50:31 · 6017 阅读 · 0 评论 -
模型评估笔记
模型评估是模型开发过程的不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。在数据挖掘中,使用训练集中的数据评估模型性能是不可接受的,因为这易于生成过于乐观和过拟合的模型。数据挖掘中有两种方法评估模型,验证(Hold-Out)和交叉验证(Cross-Validation)。为了避免过拟合,这两种方法都使用(模型没有遇到过的)测试集来评估模型性能。验证(Hold-O转载 2016-07-06 11:22:37 · 8075 阅读 · 2 评论 -
Recall(召回率) Precision(准确率) F-Measure E值 sensitivity(灵敏性) specificity(特异性)漏诊率 误诊率 ROC AUC
Recall(召回率) Precision(准确率) F-Measure E值 sensitivity(灵敏性) specificity(特异性)漏诊率 误诊率 ROC AUC信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)=系统检索到的相关文件 / 系统所有相关的文件总数,衡量的是检索系统的查全率。准确率(Precision Rate)=系转载 2016-07-12 11:07:51 · 16714 阅读 · 0 评论 -
机器学习算法常用指标总结
阅读目录1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positiv转载 2016-07-12 11:06:53 · 4546 阅读 · 0 评论 -
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
朴素贝叶斯是一个很不错的分类器,在使用朴素贝叶斯分类器划分邮件有关于朴素贝叶斯的简单介绍。若一个样本有n个特征,分别用x1,x2,…,xnx1,x2,…,xn表示,将其划分到类ykyk的可能性P(yk|x1,x2,…,xn)P(yk|x1,x2,…,xn)为:P(yk|x1,x2,…,xn)=P(yk)∏ni=1P(xi|yk)P(yk|x1,x2,…,xn)=P(yk)∏i=1n转载 2016-04-26 13:16:23 · 10610 阅读 · 0 评论 -
N-Gram模型
N-Gram模型时大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔画,或代表字母或笔画的数字,转换成汉字串(即句子)时,可以计算出最大概率的句子,从而实现从到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔画串、数字串转载 2016-02-02 11:17:07 · 1264 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,...转载 2018-09-20 10:45:41 · 620 阅读 · 0 评论