
机器学习算法与库
文章平均质量分 52
故常无-欲以观其妙
行胜于言
展开
-
关于狄利克雷分布的理解
作者:Thomas Wayne链接:http://www.zhihu.com/question/26751755/answer/80931791来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。最近问的人有点多,打算写一系列“简单易懂地理解XXX系列”。今天来讲一下dirichlet distribution和dirichlet pr翻译 2016-04-12 22:27:53 · 16460 阅读 · 3 评论 -
准确率,召回率,F值,ROC,AUC
度量表1.准确率 (presion) p=TPTP+FP2.召回率 (recall)r=TPTP+FN 3. F值为p和r的调和平均值 F=2rpp+r 4.ROC曲线对于0,1两类分类问题,一些分类器得到的结原创 2016-04-21 22:15:03 · 32378 阅读 · 3 评论 -
Python聚类工具scipy cluster
scipy cluster库简介scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法: 1. 矢量量化(scipy.cluster.vq):支持vector quantization 和 k-means 聚类方法 2. 层次聚类(scipy.cluster.hierarchy):支持hierarchical clustering 和 aggl转载 2016-10-18 21:16:17 · 8082 阅读 · 1 评论 -
贝叶斯思想-dp进行简易中文分词
#朴素贝爷斯分词(含义是分词后,得分的假设是基于两词之间是独立的,后词的出现与前词无关)# p[i][n]表示从i到n的句子的最佳划分的得分,我们用dp表达式p[i][n]=max(freq(s[i:k])+p[k][n])# 依次求出长度为1,2,3,n的句子划分,那么p[0][n]便是最佳划分结果,用t[i]表示产生的最佳划分每次向前走几个字符import mathd = {}log原创 2016-06-25 18:49:37 · 1227 阅读 · 0 评论 -
python中的map, filter, and reduce
map, filter, and reducePython provides several functions which enable a functional approach to programming. These functions are all convenience features in that they can be written in Python fairl转载 2016-06-04 11:36:56 · 441 阅读 · 0 评论 -
C4.5决策树-为什么可以选用信息增益来选特征
要理解信息增益,首先要明白熵是什么,开始很不理解熵,其实本质来看熵是一个度量值,这个值的大小能够很好的解释一些问题。 从二分类问题来看,可以看到,信息熵越是小的,说明分类越是偏斜(明确),可以理解为信息熵就是为了消除分类不确定性的,决策树本就是根据一个个问题的答案去尽可能明确的找出规律去告诉别人这条数据的类别,如果说类被均匀的分到两边,相当于你问别人,明天会小雨吗,别人告诉你可能会下可能不会小原创 2016-04-24 22:33:30 · 8375 阅读 · 1 评论 -
随机洗牌
问题:给定一个有序序列1~n,要你将其完全打乱,要求每个元素在任何一个位置出现的概率均为1/n。解决方案:依次遍历数组,对第n个元素,以1/n的概率与前n个元素中的某个元素互换位置,最后生成的序列即满足要求,1/n的概率可通过rand() % n实现。见如下程序:void swap(int* p, int* q){ int tmp = *p; *p = *q;转载 2016-05-08 18:31:19 · 313 阅读 · 0 评论 -
随机采样方法整理与讲解(MCMC、Gibbs Sampling等)
随机采样方法整理与讲解(MCMC、Gibbs Sampling等)本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这转载 2016-04-19 21:41:31 · 4839 阅读 · 0 评论 -
极小化问题与负梯度方向
转自:作者: peghoty 出处: http://blog.youkuaiyun.com/peghoty/article/details/9337515转载 2016-04-19 17:32:04 · 3912 阅读 · 0 评论 -
卷积神经网络(Convolutional Neural Networks)CNN
申明:本文非笔者原创,原文转载自:http://www.36dsj.com/archives/24006自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前转载 2016-04-16 22:02:50 · 5219 阅读 · 0 评论 -
Deep Learning(深度学习)整理,RNN,CNN,BP
申明:本文非笔者原创,原文转载自:http://www.sigvc.org/bbs/thread-2187-1-3.html4.2、初级(浅层)特征表示 既然像素级的特征表示方法没有作用,那怎样的表示才有用呢? 1995 年前后,Bruno Olshausen和 David Field 两位学者任职 Corne转载 2016-04-16 21:47:16 · 17568 阅读 · 4 评论 -
简易kmeans-c++版本
#include<iostream>#include<vector>#include<map>#include<algorithm>#include<cmath>#include<fstream>#include<string>#include<assert.h>#include<stdlib.h>#include<time.h> int const N = 1000;int原创 2016-04-12 20:09:01 · 3646 阅读 · 0 评论 -
网络爬虫-python-爬取天涯求职贴
使用urllib请求页面,使用BeautifulSoup解析页面,使用xlwt3写入Excelimport urllib.request from bs4 import BeautifulSoup import time import xlwt3 from xlrd import open_workbook wExcel=xlwt3.Workbook() sheet1=wExcel.ad原创 2016-04-11 15:23:35 · 4328 阅读 · 0 评论 -
PCA,SVD
前言:PCA(principal component analysis)和SVD(Singular value decomposition)是两种常用的降维方法,在机器学习等领域有广泛的应用。本文主要介绍这两种方法之间的区别和联系。一、PCA:图1.寻找主成分方向 PCA的中文名叫做主成分分析,是降维和去噪的一种重要方法。PCA选取包含转载 2017-04-12 22:57:11 · 856 阅读 · 0 评论