
机器学习
文章平均质量分 74
friendpengyou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[008]基于信息熵的无字典分词算法
这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。 一、概念介绍 1、词语分片 设一个文档集 。其中, 为一个文本, 。 设 为文档 的分片集合。其中,转载 2015-12-03 11:07:43 · 674 阅读 · 0 评论 -
[039]文本去重、过滤——文本指纹
1. 文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指转载 2016-08-19 10:51:27 · 3325 阅读 · 1 评论 -
[044]利用FFM做新闻源评级一算法调研
FFM简介源码使用台湾大学LIBFFMhttp://www.csie.ntu.edu.tw/~cjlin/libffm/ LIBFFM是一个解决领域感知分解机的开放源码工具( field-aware factorization machines (FFM))。它已经赢得了最近的两个点击率预测( click-through rate prediction)比赛冠军。它支持:l2正则化logisti原创 2017-04-05 11:59:17 · 2585 阅读 · 0 评论 -
[043]基于实体词的新闻源相似度计算
新闻推荐系统里,推荐给用户喜欢看的新闻方法有很多种,其中一个很重要的就是根据用户的profile,推荐最相似的内容,如何做到最快反馈,是提高用户内容体验的重要方式。 基于新闻特点,每篇新闻都有相应的实体词或tag,tag就是用户profile的一种描述,所以可以挖掘实体词与源的关系,根据实体词给用户推送与实体词最相关的源的新闻内容。挖掘。。。原创 2017-03-27 19:50:21 · 1341 阅读 · 2 评论 -
[038]如何选择机器学习分类器?
你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。你的训练集有多大?如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k转载 2016-07-28 19:25:52 · 410 阅读 · 0 评论 -
[026]文本分类之SVM
1 基础知识 1. 1 样本整理 文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,而在朴素贝叶斯方法中,一般为0和1,但不是固定的,标签的设置和算法本身的性质有关的。 如下面的整理的样本,1为正类,-1为反类(为了能便于展示,这里使用了一些即时聊天工具中的文本,里面的一些对话都是转载 2016-04-16 23:28:21 · 895 阅读 · 0 评论 -
[035]Java实现SVM对乳腺癌检测数据分类分析
背景简介:最近在做SVM分类的学习,查看网上大多相关内容都是SVM原理介绍、推导和用终端命令行使用svm-train,svm-predict。具体数据分析实现很少。通过查找资料发现了一个很好的开发库LIBSVM。LIBSVM– A Library for Support Vector Machines是由the National Science Council of Taiwan发布维护的,对SVM原创 2016-04-26 21:42:31 · 2926 阅读 · 0 评论 -
[024] 11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:/** * 获取文本的所有分词结果, 对比不同分词器结果 *转载 2016-03-26 21:12:22 · 1595 阅读 · 0 评论 -
[023]中文分词——ansj
最近在做新闻分类的相关研究学习,其中一个重要环节便是中文分词,分词的好坏也决定着后续新闻分类的好坏,于是google发现一个叫ansj的分词工具很好用,遇到一个好东西就要好好吃透它,于是查找很多相关资料,并应用到自己的项目程序中,在这里与大家分享。简介新闻分类中的分词只是一种应用,比如:检索、自然语言处理、数据挖掘等方面工作都需要用到中文分词,所以ansj还是值得好好研究一下的。Ansj 是一个开源原创 2016-03-26 21:02:50 · 958 阅读 · 0 评论 -
[050]Python 机器学习系列之线性回归篇深度详细
本次推文介绍用线性模型处理回归问题。 从简单问题开始,先处理一个响应变量和一个解释变量的一元问题。 然后,介绍多元线性回归问题(multiple linear regression),线性约束由多个解释变量构成。 紧接着,介绍多项式回归分析(polynomial regression 问题),一种具有非线性关系的多元线性回归问题。 最后,介绍如果训练模型获取目标函数最小化的参数值。 在研究一个大数转载 2017-07-14 12:05:54 · 3275 阅读 · 0 评论