
机器学习
李困困
大学渣一枚,对机器学习,深度学习,数据挖掘一知半解...邮箱:zhili8866@163.com,qq:770228307
展开
-
Python针对图像的基础操作
1. 读取图片转换为数组,输出维度,类型,某个坐标的像素,图像等。# -*- coding: utf-8 -*from PIL import Imagefrom pylab import *from numpy import *#读取图片并转为数组im = array(Image.open("example.jpg"))#输出数组的各维度长度以及类型print (im.shape,im原创 2016-11-03 18:28:43 · 2990 阅读 · 0 评论 -
PRML笔记
根均方误差(RMS)ERMS=2E(w∗)/N−−−−−−−−−√E_{RMS} = \sqrt {2E({w^*})/N}其中,除以NN让我们能够以相同的基础对比不同大小的数据集,平方根确保了ERMSE_{RMS}与目标变量tt使用相同的规模和单位进行度量。原创 2017-02-13 20:48:33 · 609 阅读 · 0 评论 -
常用的机器学习算法比较
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地转载 2016-10-27 17:11:10 · 375 阅读 · 0 评论 -
机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会转载 2016-10-27 18:23:51 · 431 阅读 · 0 评论 -
正则化方法:防止过拟合,提高泛化能力
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training d转载 2016-10-27 18:23:04 · 649 阅读 · 0 评论 -
交叉熵代价函数
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z转载 2016-10-27 17:28:44 · 333 阅读 · 0 评论 -
OpenCV人脸检测(C++代码)—— By wepon
OpenCV人脸检测(C++代码)—— By wepon这篇文章简单总结一下人脸检测的代码实现,基于OpenCV,C++版本。之所以强调C++版本是因为OpenCV有很多其他语言的接口,之前我也写过人脸检测的Python实现《Python-OpenCV人脸检测(代码)》,这篇文章则讲C++实现,其实大同小异,C++相比于Python实现代码写起来会繁琐一点,这也是语言本身决定的吧。转载 2016-10-27 17:25:28 · 1233 阅读 · 0 评论 -
Python-OpenCV人脸检测(代码)
Python-OpenCV人脸检测(代码)@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43523507做人脸识别,首先要检测出图片/视频中的人脸,今天就研究了一下OpenCV的Python接口,把常用的一些功能模块写成函数。基于Python-OpenCV以及PIL,实现转载 2016-10-27 17:24:54 · 1132 阅读 · 0 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人转载 2016-10-27 17:18:34 · 398 阅读 · 0 评论 -
(1)kNN算法_手写识别实例——基于Python和NumPy函数库
(1)kNN算法_手写识别实例——基于Python和NumPy函数库1、kNN算法简介kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算法之一,算法思想很简单:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。下面的简介选自wiki百科:http://zh.wikipedia.org/wiki转载 2016-10-27 16:42:05 · 1918 阅读 · 1 评论 -
(2)logistic回归__基于Python和Numpy函数库
(2)logistic回归__基于Python和Numpy函数库1、算法简介本文的重点放在算法的工程实现上,关于算法的原理不具体展开,logistic回归算法很简单,可以看看Andrew Ng的视频:https://class.coursera.org/ml-007,也可以看看一些写得比较好的博文:洞庭之子的博文。下面我只列出一些个人认为重要的点。回归的概念:假设有转载 2016-10-27 16:43:52 · 733 阅读 · 0 评论 -
(3)主成分分析(PCA)——基于python+numpy
【机器学习算法实现】主成分分析(PCA)——基于python+numpy1、PCA算法介绍主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。一般我们获取的原始数据维度都很高,比如1000个特征,在这1000个特征中可能包含了很多无用的信息或者噪声,真正有用的特征才100个,那么我们可以运用PCA算法将100转载 2016-10-27 16:46:00 · 3731 阅读 · 0 评论 -
如何解决机器学习中数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长转载 2017-04-08 18:37:33 · 2036 阅读 · 0 评论