
机器学习
決心
致力于解决实际问题
展开
-
简单的神经网络模型java版本
package cn.kelaile.ocr;public class Bpneuralnettest {public staticint innode= 4 ;//输入结点数public staticint hidenode= 10;//隐含结点数public staticint outnode= 1 ;//输出结点数public stat原创 2014-11-18 19:11:59 · 763 阅读 · 1 评论 -
浅谈信息过滤
年终岁尾,一边跑着模型,一边整理下今年的工作,除了开始做了些聚类,rank工作,后来主要集中在信息过滤方面:视频聊天审核,新闻评论审核,新闻文本内容黄反检测,垃圾图片检测以及新闻推广内容过滤。首先谈谈聊天过滤。直播间聊天,其实很难用机器学习模型训练,因为数据常常人为可以增加噪声,希望通过噪声的作弊,来发表一些被屏蔽的言论。而这些噪声大多集中在间隔符,拼音,形近字,音近字的形式,并且具有快速扩展的特原创 2017-01-23 11:45:07 · 2591 阅读 · 1 评论 -
SVM推导帖子收藏
SVM推导里看过的不错的两个帖子,还有就是《机器学习实战》中的SVM那一章的SMO的简单实现的python代码,学习SVM的可以看一看,比《统计学习》书里的部分,细节要详细些。'''Created on Nov 4, 2010Chapter 5 source file for Machine Learing in Action@author: Peter'''from numpy impo原创 2016-04-19 19:20:00 · 568 阅读 · 0 评论 -
LibSVM使用指南
本文包含以下几个部分:支持向量机–SVM简介 LibSVM的安装 LibSVM的使用 LibSVM参数调优 Java版LibSVM库函数的调用 SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空转载 2016-04-22 17:50:38 · 505 阅读 · 0 评论 -
支持向量机(SVM)基础
转自:http://leftnoteasy.cnblogs.com, 一、线性分类器:首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线)image 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实写成这种形转载 2016-04-22 16:47:06 · 255 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公转载 2016-04-21 18:55:55 · 407 阅读 · 0 评论 -
k-means 简单实现
同学很久以前做的,那时候我刚实习,他刚参加工作(他是两年制),那时候开始对数据挖掘感兴趣,他发给我的他自己做的demo。 原帖地址:http://www.cnblogs.com/niuxiaoha/p/4645989.htmlpackage neugle.kmeans;import java.io.BufferedReader;import java.io.FileNotFoundExcepti原创 2016-04-20 19:16:10 · 703 阅读 · 0 评论 -
文本小票的一种无监督聚类方法
基于ostu的无监督文本聚类 对于区分不同店铺的小票效果良好 同店铺小票不同类别区分效果一般,但是对于离群点定位(小样本类别很精准),借鉴了TF/IDF的思想,还有词处理时的去停词,词频因素的考虑优化,分类的阈值计算为每次基于相似度集合的前后背景最大分割点,不断二分类。 ostu为图像二值化处理时的一种算法(类间最大方差),图像专业,前年第一次尝试做聚类时的一个想法和实现,前后设计调优用了三天,不原创 2016-04-19 19:49:49 · 656 阅读 · 0 评论 -
读书笔记:机器学习实战(4)——章五的逻辑回归代码和个人理解
个人理解,Logistic回归最根本的理论基础就是利用了Sigmod函数或者tan等,能够较平滑的(相对其他的单位阶跃函数)表示非0即1,或者-1和1,以及其中间值。这样将样本的特征向量的每一个维度或者(每一种属性,参数)都赋予一个权重系数,所有的属性值和其权重得到的权值的和作为改样本最终的分类参考值,这个值更偏向于哪一边样本就被划分为哪一类。 而Sigmod的这种非0即1的特点,可以错误分为1的原创 2015-06-30 23:50:57 · 750 阅读 · 1 评论 -
读书笔记:机器学习实战(5)——章6的支持向量机代码和个人理解与注释
时隔好久,前几章博客是去年看的时候写的,后来只看书没有继续写,再后来忙着项目,连书都很少看了。然后是忙完项目后的空白期的疯狂看书,看了很多数据结构算法,设计模式,代码整洁,项目可重构方面的书。年后重新把《机器学习实战》后面的章节读完,现在开始整理笔记。 支持向量机,个人理解就是有一个n维的特征空间,要想把里面的特征二分(多分类是svd的变种方法,后面再讲),那么就需要一个n-1维的超平面来分割它(原创 2016-03-29 19:08:13 · 956 阅读 · 1 评论 -
mahout学习之二——mahout0.9kmeans聚类实例
最近学习《Mahout实战》,但是书中的代码是实用mahout0.5版本,很多地方在mahout0.9版本中已经改头换面了,经调试,阅读mahout0.9api,运行结果如图:修改代码如下:package cn.kelaile.hadooptest;import org.apache.hadoop.conf.Configuration;import or原创 2015-09-12 15:58:25 · 1234 阅读 · 0 评论 -
读书笔记:机器学习实战(2)——章3的决策树代码和个人理解与注释
首先是对于决策树的个人理解: 通过寻找最大信息增益(或最小信息熵)的分类特征,从部分已知类别的数据中提取分类规则的一种分类方法。 信息熵: 其中,log底数为2,额,好吧,图片我从百度截的。。 这里只解释到它是一种信息的期望值,深入的请看维基百科 http://zh.wikipedia.org/zh-sg/熵_(信息论)信息增益:划分数据集前后的信息发生的变化(原书定义) 实际应原创 2015-06-10 19:25:05 · 932 阅读 · 0 评论 -
读书笔记:机器学习实战(1)——章2的knn代码和个人改进与注释
最近在学习《机器学习实战》一书,受益匪浅,之前还看过本书《机器学习系统设计》也很不错,个人觉得前者更注重算法学习和白盒代码优化(原理理解),而后者更注重skit-learn 等工具包的黑盒使用,更重要的是会指导部分工具算法使用的调优trick,提到机器学习的trick调优,比如early-stoping等,《Neural networks and deep learning》中讲授了很多精华,但是目原创 2015-06-06 23:54:01 · 798 阅读 · 0 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training d转载 2015-05-19 18:59:34 · 1362 阅读 · 0 评论 -
机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size
学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会使收敛过慢,如果学习速率太大,则会导致代价函数振荡,如下图所示。就下图来说,一个比较好的策略是先将学习速率设置为0.25,然后在训练到第20个Epoch时,学习速率改为0.025转载 2015-05-19 19:18:44 · 2799 阅读 · 0 评论 -
读书笔记:机器学习实战(3)——章4的朴素贝叶斯分类代码和个人理解与注释
简单介绍下朴素贝叶斯分类原理: 首先要知道贝叶斯公式: 贝叶斯定理是一种用先验概率推断后验概率:在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。 而这一章的代码,是通过简单的词袋模式,通过计算训练集中该事件对应的每个词出现的先验概率,来推断出文章中每个词对应的事件概率,对同类概原创 2015-06-17 16:23:54 · 1616 阅读 · 0 评论 -
机器学习之数据清理经验
文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%) 1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本) 2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声 3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常原创 2017-03-20 20:37:59 · 1319 阅读 · 1 评论