
机器学习
文章平均质量分 87
XiaoXiao_Yang77
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用余弦定理计算文本相似度
做文本挖掘时,我们可能需要分析不同文本之间的关联,最简单的就是分析两文本是否相似,是否在陈述相同的事情。文本属于非数值数据,通常可根据分词,把文本转化成数值向量,进一步根据相似度度量进行分析。 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 余弦相似度(Cosine Similarity原创 2017-10-13 15:02:33 · 4363 阅读 · 0 评论 -
机器学习算法——KNN分类算法介绍以及Java实现
KNN分类算法介绍一、什么是分类分类是指通过对大量的训练样本进行提取和分析,训练出用来分类的规则,即分类器或者分类模型,最终判断未知样本的类别。常见的分类算法有:决策树(ID3和C4.5),朴素贝叶斯,人工神经网络 (Artificial Neural Networks,ANN),k-近邻(kNN),支持向量机(SVM),基于关联规则的分类,Adaboosting方法等等。这篇文章主要介绍KNN算法原创 2017-10-13 15:19:19 · 3657 阅读 · 1 评论 -
文本挖掘——基于TF-IDF的KNN分类算法实现
[TOCM]一项目背景二项目实施1属性词典的构造2文本向量TF-IDF的计算3分类器的训练测试文本类别的判断分类精度的计算三项目总结一、项目背景此项目是用于基建大数据的文本挖掘。首先爬虫师已经从各个公开网站上采集了大量的文本,这些文本是关于基建行业的各种招中标公告,文本里会有部分词汇明显或者隐晦的介绍此项目是关于哪一工程类别的,比如公路工程,市政工程,建筑工程,轨道交通工程,等等。所以,拿原创 2017-10-13 15:30:04 · 5017 阅读 · 1 评论 -
机器学习算法——决策树ID3算法介绍以及Java实现
一、 决策树算法决策树:是一种用于对实例进行分类的树形结构,可以是二叉树或非二叉树,由节点(node)和有向边(directed edge)组成。其中每个非叶子节点表示一个特征属性,叶子节点代表类别属性,它的值由根节点到叶子节点这一分支的属性值确定。使用决策树进行分类的过程,就是从根节点出发,训练数据的分支走向,直到得到叶子节点的值停止计算,这时即可输出类别。决策树算法是从数据的属性(或者原创 2018-02-05 17:50:57 · 4127 阅读 · 0 评论 -
机器学习算法——PCA算法介绍以及Java实现
PCA算法一、算法概述主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极原创 2018-02-07 11:45:38 · 6462 阅读 · 14 评论 -
python+nltk安装+jieba分词安装
jieba(结巴)是一个强大的分词库,完美支持中文分词,且适用于python语言,本文对其安装做了简单的笔记。原创 2018-07-20 11:29:33 · 1467 阅读 · 0 评论