
机器学习
文章平均质量分 96
S_H-A_N
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sklearn计算两个向量之间的距离
from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.metrics.pairwise import euclidean_distancesfrom sklearn.feature_extraction.text import TfidfVectorizerimport jiebadef seg_w原创 2018-01-26 17:09:27 · 11371 阅读 · 0 评论 -
回归分析
来自《漫画统计学之回归分析》一元线性回归分析1.假设有一组数据,是天气的温度和卖出冰红茶的数量2.将这些数据用散点图表示出来3. 求出回归方程y=ax+b,根据回归方程就可以通过气温预测冰红茶的销售量x:自变量y:因变量a:回归系数a和b确定的原则是要使得样本的回归直线与观察值的拟合状态最好,即要使得偏差最小,转载 2015-10-02 19:06:01 · 1110 阅读 · 0 评论 -
贝叶斯网络
1.贝叶斯方法的提出july:贝叶斯方法谈到贝叶斯网络长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会想都不用想,会立马告诉你,取出白转载 2015-10-01 11:53:55 · 1065 阅读 · 1 评论 -
snownlp情感分析源码解析
使用snownlp进行情感分析:from snownlp import SnowNLP#创建snownlp对象,设置要测试的语句s = SnowNLP('这东西不错。。')# 调用sentiments方法获取积极情感概率print(s.sentiments)输出:0.8371034573341097实现过程:1.首先从SnowNLP入手,看一下sentiments方原创 2017-11-17 21:25:26 · 18191 阅读 · 7 评论 -
机器学习实战:k-临近算法(一)
工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最邻近)的分类标签。一般来说,我们只选择样本数据集中前k个最相似数据,这就是k-临近算法的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多原创 2017-06-10 20:57:50 · 810 阅读 · 1 评论 -
机器学习实战:朴素贝叶斯分类(二)
使用朴素贝叶斯过滤垃圾邮件(1)收集数据:提供文本文件。(2)准备数据:将文本文件解析成词条向量。(3)分析数据:检查词条确保解析的正确性。(4)训练算法:使用我们之前建立的trainNBayes0函数(5)测试算法:使用classifyNB(),并且构建一个新的测试函数来计算文档集的错误率。(6)使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。原创 2017-06-25 11:25:16 · 895 阅读 · 0 评论 -
机器学习实战:朴素贝叶斯分类(一)
可参考以下文章,先了解朴素贝叶斯分类张洋:算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)寒小阳:NLP系列(2)_用朴素贝叶斯进行文本分类(上) 朴素贝叶斯分类的一般过程(1)收集数据:可以使用任何方法。(2)准备数据:需要数值型或者布尔型数据。(3)分析数据:有大量特征时,绘制特征图作用不大,此时使用直方图效果原创 2017-06-18 23:53:20 · 1282 阅读 · 0 评论 -
机器学习实战:决策树
理论知识:(1)信息熵:https://zhuanlan.zhihu.com/p/26486223(2)条件熵:https://zhuanlan.zhihu.com/p/26551798(3)信息增益:https://zhuanlan.zhihu.com/p/26596036其他文章:(1)张洋:算法杂货铺——分类算法之决策树(Decision tree)(2)july:从原创 2017-06-25 21:31:19 · 484 阅读 · 0 评论 -
机器学习实战:k-临近算法(二)
海伦一直在使用在线约会网站寻找合适自己的约会对象,经过一番总结,海伦整理了以下数据,希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中1、收集数据40920 8.326976 0.953952 largeDoses14488 7.153469 1.673904 smallDoses26052 1.441871 0.805124 didntLike75136 13.1473原创 2017-06-11 23:11:45 · 696 阅读 · 1 评论 -
基于情感词典的情感分析
思路以及代码都来源于下面两篇文章:一个不知死活的胖子:Python做文本情感分析之情感极性分析 Ran Fengzheng 的博客:基于情感词典的文本情感极性分析相关代码基于情感词典的情感分析应该是最简单的情感分析方法了,大致说一下使用情感词典进行情感分析的思路:对文档分词,找出文档中的情感词、否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一个组...原创 2018-01-19 23:05:26 · 82695 阅读 · 116 评论