- 博客(60)
- 收藏
- 关注
原创 文章标题
今天主要熟悉一下Hadoop – python – streaming知识框架: 1. Streaming简介 2. Streaming优缺点 3. Streaming具体原理 4. Streaming使用方法 具体: 1. streaming简介: Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或脚本文件作
2016-03-31 17:29:20
598
原创 KNN ( K近邻算法 )
现在我们有一个训练数据集,对新来的实例,找到训练数据集中离这个新实例最近的K个实例,统计这K个实例的类别,然后利用多数表决或者其他策略预测新实例的类别这就是K近邻算法的基本思想。K近邻的这种分类方式其实相当于利用训练数据集把特征向量空间进行划分,并且把这个划分好的空间作为分类模型。K近邻算法有三个基本要素,需要重点考虑,即:1. K值的选择K值的选择对K近邻算法
2015-12-19 16:58:54
3402
原创 Random Forest(随机森林)
1. 随机森林训练过程2. 随机森林的预测过程 输入:训练集S,测试集T,特征维数F参数:生成的CART树的数量t,每棵树的深度d,每个结点用到的特征数量f终止条件:结点上的样本数小于s,结点上的信息增益(比)小于m。输出:由CART组成的随机森林1. 随机森林训练过程(1).从S中有放回的抽取大小和S一样的训练集S(i),作为根结点
2015-12-19 16:48:07
1469
原创 Naive Bayesian(朴素贝叶斯)
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,先基于特征条件独立假设学习到输入输出的联合概率分布,然后基于此模型,对于给定的输入x,利用贝叶斯定理输出后验概率最大的输出y。(属于生成模型)综合来说就是:1. 由训练数据学习联合概率分布。(会用到条件独立性假设)2. 利用贝叶斯定理将输入x分到后验概率最大的类y。
2015-12-19 16:38:34
845
原创 Logistic Regression(逻辑斯特回归)
Logistic Regression实际上是基于LinearRegression的,与LinearRegression的不同在于输出增加了一个非线性映射,即应用逻辑斯特函数将回归结果映射到0到1(能够将负无穷到正无穷映射到0-1的函数有很多,但是Logistic函数求导结果很简洁,能让伯努利的指数分布式标准形式(待理解)),从而可以利用概率来分类。下面讲一下LR 的推导过程。我们按照解决机器
2015-12-19 16:02:24
3691
原创 SVM
面试宝典系列主要是针对将来找工作时面试官可能会考察到的内容,大致包括机器学习十大算法以及一些机器学习常见概念。现在把这些东西先弄明白整理出来,面试前再热乎热乎。 本系列主要参考了李航博士的《统计学习方法》以及网上的一些知名博文。快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q插入链接 Ctrl + L插入代码 Ctrl + K插
2015-07-24 10:48:28
510
原创 Python学习笔记
Python以缩进来区分语句块不像Java,C/C++以花括号{}来区分语句块.Python是以缩进来表示语句块,同一缩进级别为同一级别的语句块.开启一个新的缩进需要使用:(冒号),代表下一级别的语句块,如条件,循环或者函数定义.缩进最好使用四个空格.而且要注意缩进要一致,使用空格就全都用空格,使用Tab就都使用Tab,混用就可能得到缩进错误:不一样的有not逻辑非,and
2015-07-06 22:04:27
528
转载 Logistics推导
logistic regression 从字面上就可以看出,分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射,映射到0-1,从而可以利用概率进行分类。分类问题有很多种模型,包括logistic regression,SVM支持向量机,神经网络等等,logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来
2015-06-25 21:16:12
1304
转载 KNN
k Nearest Neighbor Algorithm k Nearest Neighbor(kNN) algorithm算法和k-Means算法一样,都是简单理解,但是实际效果出人意料的算法之一。正式由于其算法思想简单,很多人可能会认为在工程中用途有限,实际上kNN和k-Means两种算法正是凭借其算法思想入选 Top Ten Data Mining Algorithm(http://
2015-06-24 16:34:42
661
转载 L1范式和L2范式
L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和。既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。L2范数是指向量各元素的平方和然后求平方根。
2015-06-09 21:15:25
20431
转载 随机森林原理---学习过程,参数
随机森林原理随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树
2015-06-06 15:37:48
3520
2
原创 Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差 和 在训练样本之外的误差。
Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差 和 在训练样本之外的误差。
2015-06-04 17:19:53
3259
转载 机器学习的本质
一般而言,机器学习方法包含以下几个组件:假设集H :所有预测用的函数h的集合,根据其输出值,可以将问题分为回归和分类数据D:已知的数据集合,通常包含训练数据和测试数据算法A:在H中选取一个在D上表现最好的假设,在实际中,就是通过最优化理论来选择模型参数。VC bound :在训练数据和测试数据从同一个概率分布抽取,且数据量够大时时,对于常见的 error measure
2015-06-03 15:25:50
1078
原创 台大机器学习听课笔记---基石 9-1 Linear Regression
台大机器学习听课笔记---基石 9-1 Linear Regression找一个线性函数或超平面来描述所看到的实数资料是什么样的。红色线段 ---- rediduals:余差最小化EinLinear Classiffication 和Linear RegressionEr
2015-06-03 12:15:15
499
原创 sign(x) 不懂不会百度吗?
sign(x): 在数学和计算机运算中,其功能是取某个数的符号(正或负): 当x>0,sign(x)= 1 当x=0,sign(x)= 0 当x
2015-06-01 21:58:13
1319
原创 MYSQL CAST
create table table2 as select a,b,cast(c as bigint) as d from table1;
2015-05-31 11:50:33
497
原创 台大机器学习听课笔记---RF 10-3 Feature Selection
Feature Selection从庞大的特征集合中筛选特征(例如1W维选出300维)----来剔除掉 :冗余,无关的特征。这样做的好处:1. 不管训练还是测试都是在那300维上,提高效率。2. 排除掉了其他9700维的"noise".从而不容易overfit.3. 可解释性缺点:1. 1W维选出300维,在计算上要花很大的力
2015-05-30 11:37:19
699
原创 台大机器学习听课笔记---RF 10-2 Out-Of-Bag Estimate
OOB:列gi为从已有的资料中选出的一部分,行(Xi,Yi)为资料元数据。矩阵中红星代表未选中,Di代表被gi选中.
2015-05-29 22:22:46
1872
原创 台大机器学习听课笔记---Bagging 7-4
目的:用同一份资料制造出很多不同的小矩。用手上的资料生出长的像“新鲜”的资料。------------------------------------------------------------------------------------------------------------------------------------------做法:从手
2015-05-29 16:36:53
516
转载 线性时间复杂度求数组中第K大的数
算法思想基于快速排序,详细步骤如下:1. 随机选择一个分割点2. 将比分割点大的数,放到数组左边;将比分割点小的数放到数组右边;将分割点放到中间(属于左部分)3. 设左部分的长度为L, 当K 当K > L时,递归地在右部分中找第(K - L)大的数 当K = L时,返
2015-05-29 11:50:10
1258
转载 过拟合产生的原因和预防
1,什么是过拟合(overfitting)简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题。上图中,竖直的虚线左侧是"underfitting", 左侧是"overfitting”。发生overfitt
2015-05-21 17:16:29
4189
原创 对偶(数学)
线性规划问题中的(P) min f = c'x Ax≥b 且c'≥0(D) max g = y'b y'A≤c' 且y'≥0问题 (P) (D)互为对偶问题对偶问题 每一个线性规划问题都伴随有另一个线性规划问题,称为对偶问题。原来的线性规划问题则称为原始线性规划问题,简称原始问题。对偶问题有许多重要的特征,它的变量能提供关于原始问题最优解的许多重要资料,有
2015-05-21 15:49:34
2079
转载 支持向量机(SVM)的详细推导过程及注解
原文地址:http://blog.sina.com.cn/s/blog_4298002e010144k8.html 支持向量机(SVM)的详细推导过程及注解
2015-05-21 15:13:49
553
原创 ‖ ‖ 范数
‖ ‖ 这个符号叫做范数,它事实上是由线性赋范空间到非负实数的映射在线性赋范空间中,它可以表示空间中的点与原点间的距离,两点间的距离也是用两点之差的范数来表示的范数所满足的条件有:(1)||x||>=0,且||x||=0当且仅当x=0(2)||ax||=|a|*||x|| 其中a为线性空间对应的数域中的数(3)||x+y||
2015-05-21 15:03:39
1836
原创 凹函数与凸函数
定义: 设函数f(x)在区间I上定义,若对I中的任意两点x1和x2,和任意λ∈(0,1),都有 f(λx1+(1-λ)x2)则称f(x)是I上的凹函数。 若不等号严格成立,即"如果"="就是凸函数。类似也有严格凸函数。 这个定义从几何上看就是: 在函数f(x)的图象上取任意两点,如果函数图象在这两点之间的部分总在连接这两点的线段的下方,那么这个函数就是凹函数。
2015-05-21 11:54:18
10356
3
转载 监督学习与无监督学习
在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监
2015-05-21 11:28:14
2129
转载 KMP算法的JAVA实现
1.寻找最长前缀后缀 如果给定的模式串是:“ABCDABD”,从左至右遍历整个模式串,其各个子串的前缀后缀分别如下表格所示: 也就是说,原字符串对应的各个前缀后缀的公共元素的最大长度表为(下简称《最大长度表》):2.根据《最大长度表》求出next 数组 由上文,我们已经知道,字符串“ABCDABD”各个前缀后缀的最大
2015-05-20 11:01:00
447
原创 堆排序的JAVA实现和性能分析
package Sort; import java.util.Arrays; public class heapsort { private static int parentIdx(int childIdx) { //返回父节点下标 return (childIdx - 1) / 2; //索引从0开始, 注意childIdx=0时返回0
2015-05-18 17:28:26
459
原创 归并排序的JAVA实现和性能分析
package Sort;//稳定public class mergesort { public static void main(String[] args) { int[] a={49,38,65,97,76,13,27,49,78,34,12,64,1,8}; System.out.println("排序之前:"); for (i
2015-05-15 15:57:52
461
原创 快速排序的JAVA实现和性能分析
package Sort;//快速排序是不稳定的排序。//快速排序的时间复杂度为O(nlogn)。//当n较大时使用快排比较好,当序列基本有序时用快排反而不好。public class quicksort { //主函数(就一个sort方法,其他都是输出操作) public static void main(String[] args) { int[] a=
2015-05-13 11:50:44
420
转载 JAVA中数据类型的互相转换
数据类型的互相转换数据类型位长取值范围byte8-128---127short16-32768---32767int32-2147483648---2147483647long64
2015-05-09 19:19:21
378
原创 正则表达式利器之\\W
String s1="2013-12-11 01";String s2="2018-11-13 02";String [] str1=s1.split("\\W");String [] str2=s2.split("\\W");System.out.println(str1.length+" "+str2.length);for(int i=0;i<4;i++) System.out.
2015-05-09 18:53:21
968
原创 JAVA中比较两个字符串
字符串类型日期比较时会用到。有三种方法实现第一种直接用字符串类的compareTo方法:123 String t1="20131011"; String t2="20131030"; int result = t1.compareTo(t2);第二种是把这个日期字符串转
2015-05-08 17:53:28
1064
原创 JAVA中容器和数组的比较
JAVA的容器---List,Map,Set Collection ├List │├LinkedList │├ArrayList │└Vector │ └Stack └Set Map ├Hashtable ├HashMap ├TreeMap └WeakHashMap
2015-05-08 10:55:30
967
原创 四种归一化方法
1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 2、对数函数转换,表达式如下: y=log10 (x) 3、反余切函数转换 ,表达式如下: y=arctan(x)*2/PI 4、减去均值,乘以方差: y=(x-means)/ variance
2015-05-07 15:36:32
4337
原创 2014.12.10_《数据挖掘导论》笔记
1.4.数据挖掘任务1.预测任务。(预测特定属性的值,被预测的属性被称为目标变量)2.描述任务。(导出数据中潜在联系模式)预测建模:1.分类:预测离散的目标变量。(用户是否买书)2.回归:预测连续的目标变量。(股票未来价格)例子:预测花的类型。关联分析:发现描述数据中强关联特征模式(蕴涵规则或特征子集形式)。eg:购物篮分析,尿布--->
2014-12-10 12:07:12
818
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人