- 博客(36)
- 资源 (11)
- 收藏
- 关注
原创 spark/scala关于【资源文件】加载方法
概述外部文件加载方案测试资源文件打包入jar包中小结概述在spark的client模式加载文件1 文件存在于客户端的本地(非hdfs): 对于这种本地文件,可采用 Source. fromFile (LocalPath)方式加载,可加载本地文件note:采用 sc.textFile(“file:///path to the file/”)的发方式缺无法加载客户端上的文件(在云公司的堡垒机上的
2017-01-04 19:19:54
5990
原创 回归&logistics回归笔记-七月算法(julyedu.com)4 月机器学习算法班学习笔记
过拟合logistic回归损失函数性能分析关于样本处理过拟合解决方法 正则化 为什么正则化能抑制过拟合:从线性回归的角度,过拟合就是拟合的曲线过于扭曲,从系数看,就是高次项的系数不为零logistic回归损失函数为什么logistic回归不用和线性回归类似的损失函数? 这是应为这是非凸的 性能分析优点 - LR能以概率的形式输出结果, 而非只是0,1判定 - LR的可解释性强, 可
2016-05-12 00:20:54
1405
原创 深度下降法轨迹-七月算法(julyedu.com)4 月机器学习算法班学习笔记
课程大纲一般的有约束优化问题凸优化问题证明深度下降法的轨迹是正交的深度下降法步骤细化了下降步进的计算公式课程大纲核心思想:把问题转换为凸优化问题一般的有约束优化问题等式约束 不等式约束 KKT: 有约束优化问题的解的必要条件; KKT可以用于求约束优化问题的极值点; 相对于无约束时,极值点f(x)的一阶导数为0凸优化问题当问题是凸优化时,问题变得更简单了 1. 局部最优价等价于全局
2016-05-12 00:16:48
1953
原创 凸优化之优化、对偶、KKT-七月算法(julyedu.com)4 月机器学习算法班学习笔记
优化一般优化问题的基本形式凸优化的基本形式共轭函数共轭函数是凸函数对偶问题拉格朗日函数拉格朗日对偶函数KKT条件小结优化一般优化问题的基本形式minimizef0(x),x∈Rnminimize \, f_0(x),x \in R^ns.t.fi(x)≤0,i=1⋯ms.t. \, f_i(x)\leq 0,i=1 \cdots ms.t.hj(x)=0,j=1⋯ns.t. \,
2016-05-07 00:09:01
7081
原创 lazy-linalg: spark第三方依赖打包
简介基于sbt的方法基于IDEA的方法简介本次任务是对打包第三包 lazy-linalg 该包,包含了sbt的脚本基于sbt的方法下载源码解压后,在命令行模式(cmd)进入到源码所在的地址 E:\Workdir\ScalaWorkdir\lazy-linalg-master 然后执行命令:sbt这种方法简单,但是编译过程需要联网下载大量依赖的jar包 由于受到联网的影响,所以还未成功基
2016-05-06 18:04:37
1460
原创 jblas-1.2.4.jar : spark第三方依赖打包
简介依赖设置应用部署简介在实现基于spark mllib的ALS协同滤波例子: Spark机器学习_ (南非) 彭特里思 (nick pentreath)(著) 蔡立宇;黄章帅; 周济民(译) 人民邮电出版社 2015-09-01 P72其中使用了jblas包的接口,在我的应用中也使用了这个包的接口import org.apache.spark.SparkContextimport
2016-05-06 18:01:55
4861
原创 极大似然估计-七月算法(julyedu.com)4 月机器学习算法班学习笔记
从贝叶斯看极大似然估计极大似然估计幂律分布以下内容摘抄于七月算法(julyedu.com)4 月机器学习算法班课堂讲义从贝叶斯看极大似然估计由贝叶斯公式可得 maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)max P(A_i|D) = max \frac{P(D|A_i)P(A_i)}{P(D)} 其中P(D)P(D)是客观的,可视为常量 →maxP(D|Ai)P(Ai)\ri
2016-05-05 22:41:56
2004
原创 数理统计与参数估计-七月算法(julyedu.com)4 月机器学习算法班学习笔记
概率统计概率统计与机器学习的关系统计量期望方差与协方差重要定理和不等式Jensen不等式切比雪夫不等式大数定理中心极限定理以下内容摘抄于七月算法(julyedu.com)4 月机器学习算法班课堂讲义概率统计概率统计与机器学习的关系统计量期望概念 性质 方差与协方差方差 协方差 协方差与独立/不相关 协方差的意义 重要定理和不等式Jensen不等式从概率的角度看Jensen
2016-05-05 21:55:57
2644
原创 机器学习初步与微积分概率论-七月算法(julyedu.com)4 月机器学习算法班学习笔记
高等数学回顾夹逼定理泰勒公式凸函数概率论商品推荐-惊喜度常见分布统计量小结高等数学回顾夹逼定理泰勒公式从泰勒公式看熵和基尼系数的关系 凸函数 两个要点 1. 定义域是凸集 2. 函数服从Jensen不等式重要性质 概率论商品推荐-惊喜度常见分布统计量小结
2016-05-05 21:27:39
780
原创 机器学习概述
机器学习概述标签(空格分隔): 机器学习,台大,笔记机器学习概述引言基本概念机器学习问题的形式化References Resources引言 本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。 假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判
2016-01-04 18:35:48
620
原创 聚类笔记(上):基本概念
目录目录概述划分方法Kmean算法K中心法层次聚类簇间距离基于密度基于网格聚类评估聚类趋势确定簇数经验值对于层次聚类的簇数确定3聚类簇评估4非监督评估方法有监督评估方法参考概述划分方法、层次、基于密度、基于网格 划分方法Kmean算法 kmean算法不能保证收敛于与全局最优,收敛结果依赖于初始化中心的选择。实际应用常用不用的初始化中心进行多次Kmean k
2015-09-25 18:18:44
1645
转载 转-聚类算法总结
转载-聚类算法总结:聚类算法的种类:基于划分聚类算法(partition clustering)k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和
2015-09-25 17:25:27
776
翻译 【译】潜在语义分析Latent Semantic Analysis (LSA)
目录目录概述TutorialLSA的工作原理 How Latent Semantic Analysis Works实例A Small ExamplePart 1 - Creating the Count MatrixPython - Import FunctionsPython - Define DataPython - Define LSA ClassPython - Parse
2015-08-11 19:49:04
11548
1
转载 小谈导数、梯度和极值
[原文出处] http://www.cnblogs.com/jerrylead记得在高中做数学题时,经常要求曲线的切线。见到形如之类的函数,不管三七二十一直接求导得到,这就是切线的斜率,然后就得到了处的切线。上大学又学习了曲面切线和法向量的求法,求偏导是法向量,然后套公式求出切线。一个经典例子如下:(来自web上某个《几何应用》ppt)其中的向量n是F(x,y,z)的偏导数
2015-08-02 00:16:13
562
转载 Brief History of Machine Learning
Brief History of Machine Learning转自http://www.erogol.com/brief-history-machine-learning/My subjective ML timelineSince the initial standpoint of science, technology and AI, scientist
2015-04-27 11:12:08
751
转载 SVD在推荐系统中的应用
参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵
2015-04-27 01:14:43
365
原创 SVM概述
目录目录SVM概述References ResourcesSVM概述线性SVM是寻找分类间隔最大的ωTx+b=0 \omega^{T}x+b =0,即为最小化∥ω∥\left \| \omega \right \|。在引入拉格朗日对偶问题和KKT条件后,问题简化为关于∥α∥\left \| \alpha \right \|的最优化问题,最后通过SMO快速求解出∥α∥\left \| \alp
2015-04-06 12:25:03
518
原创 分类器训练的过拟合问题和处理方法【未整理完成】
一 过拟合模型训练过程中过度拟合训练集,将训练样本中的噪声(错误的样本)学习进去,使得训练误差不断降低和模型复杂度不断提高,最终导致泛化误差升高的一种现象 成因:噪声(错误的样本),样本过少/缺乏代表性 二 预测泛化误差【1】P110估计泛化误差用于在训练过程中对模型的泛化误差做估计,可用于优化模型建立,避免模型过拟合。这里关于泛化误差的估计,是在训练过程中进行。要区别于模
2015-04-04 02:05:02
4229
转载 图解SQL的Join
(转载文章请注明作者和出处 酷 壳 – CoolShell.cn ,请勿用于任何商业用途)对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章(实在不清楚为什么Coding Horror也被墙)通过 文氏
2015-03-27 09:06:49
443
转载 【转】稀疏表达:向量、矩阵与张量(上)
稀疏表达:向量、矩阵与张量(上)最近在研读关于回归的知识,想起过去研究过的稀疏表示,就拿这篇博客复习一下,这是一篇挺不错的入门资料。申明:本文非笔者原创,原文转载自:http://www.cvchina.info/2010/06/01/sparse-representation-vector-matrix-tensor-1/稀疏表达是近年来SP, ML, P
2015-03-22 01:40:53
538
转载 【转】机器学习中距离和相似性度量方法
漫谈:机器学习中距离和相似性度量方法 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0
2015-03-20 17:01:15
735
原创 简单线性回归分析【笔记】
回归分析是统计学的核心,是一个广义概念,通常指用一个或多个自变量(也成解释变量、预测变量)来预测应变量(也称因变量、校变量或结果变量)。简单线性回归只包括一个应变量和一个自变量。这种回归也称一元线性回归
2015-03-19 00:59:50
8968
转载 RANSAC算法
『原文地址』大概太久没更新了,压力就越大了,工作比较忙,人比较懒,写一篇高质量的文章还是比较耗时间的,这样吧,以后就发一些我觉得比较实用的东西吧,就那么一个小片段,这样我也比较有时间,比较有动力,假如你有什么建议可以留言。今天介绍的这个东西RANSAC是前不久接触到的东西,最网上的资料进行总结结合自己的实际应用给大家讲讲我的理解。RANSAC是“RANdom SAmple Consensus(随机抽
2015-03-04 15:26:47
474
转载 布隆过滤器(Bloom Filter)详解
【转】原文连接布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但
2015-02-27 10:54:12
609
原创 主成分分析
一 相关知识二 主成分分析PCA1 概述原理分析主成分分析的一般目的参考一 相关知识均值、协方差矩阵:样本均值M=1N(X1+X2+⋯+XN)M = \frac{1}{N}\left( {{X_1} + {X_2} + \cdots + {X_N}} \right)中心化:Xk∧=Xk−M{\mathop X\limits^ \wedge _k} = {X_k} - M B=
2015-02-26 17:31:31
1109
原创 Lucas-Kanade 算法原理以及应用
一 算法原理1 目标函数2 一阶泰勒公式展开3 最小化目标函数条件下的pDelta p二 LK算在跟踪的应用1 平移角度尺度版本2 平移版本3 平移尺度版本4 算法流程三 小结一 算法原理1.1 目标函数Lucas-Kanade Algorithm本质上是为了最小化目标函数: ∑x[I(W(x;p+Δp))−T(x)]2 (1){\sum\limits_x
2015-02-17 16:18:15
8363
原创 关于eclipse 开发java程序的要点
目录 目标 实验内容 一、新建一个java项目 二、生成指定包 三、在指定包内编写java程序 四、添加外部JAR文件 五、编译调测 六、发布可执行的JAR文件目标:1、实现一个查询服务器数据库的java程序2、将程序发
2015-02-16 23:07:01
485
原创 Windws MySQL客户端 访问 ubuntu MySQL服务器
假设在安装是已经设置了root账户,以及其密码:123456服务器IP:192.168.1.102步骤1、ubuntu下对MySQL设置:1.1 修改 my.cnf文件 修改 /etc/mysql/my.cnfbind-address = 127.0.0.1将”bind-address = 127.0.0.1“注释
2015-02-15 15:24:59
428
转载 mysql游标实例演示
mysql游标实例演示刚接触mysql游标的朋友们可能一时半会儿无法理解mysql游标是什么,游标怎么用,这边拿了一个简单的mysql游标实例来演示给大家,或许大家看了就能马上理解什么是游标,一般什么情况下使用游标.这篇文章我3年前在百度博客上发表的,很基础,不过确实比较好理解,百度博客已经不维护了。拿来这边和ttlsa的网友们分享一下.文章入门,大神可以跳
2015-02-14 16:36:39
651
原创 关于python的类
一、python的类1.1 定义: class [类名](父类名): 【注意要有冒号】如果没有特别指定的父类,建议父类为object,即 “ class [类名](父类object):”1.2 self,clsself,cls类是C++的this指针,分别代表实例指针和类指针。注意self,cls并不是关键字,即使改成其他名字不影响编
2015-01-11 20:43:22
453
原创 ubuntu 挂载 window7 共享文件夹
目录一、目标二、步骤一、目标将window7的共享文件夹挂载到在ubuntu的 /mnt/winshare(文件夹路径:D:\pythonwork,主机IP 192.168.1.100) 二、步骤2.1 windows的共享设置 a)将文件夹pythonwork共享b)建立一个共享账户,用于ubuntu挂载时使用(假设用户名:s
2015-01-08 23:11:49
344
转载 程序员技术练级攻略
月光博客6月12日发表了《写给新手程序员的一封信》,翻译自《An open letter to those who want to start programming》,我的朋友(他在本站的id是Mailper)告诉我,他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙,于是,我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来了一些他的心得和经历
2015-01-06 23:01:26
649
原创 快速排序及分析
目录一 快速排序的相关知识二 快速排的伪代码三 快速排的算法性能分析一 快速排序的相关知识快速排序采用分治法思想,步骤如下二 快速排序的伪代码 PARTITION工作机制
2015-01-04 20:00:14
415
原创 堆排序及性能分析
目录一 堆的相关知识二 堆的伪代码三 堆的算法性能分析一 堆的相关知识1.1 堆的性质1、下标为i的下标,其父节点为floor(i/2),左子节点下标为2i,其右子节点下标为2i+12、n个元素的堆时,叶节点的下标为floor(n/2)+1,floor(n/2)+2,······,n; 证明:假设 2k≤n≤2k+1
2014-12-31 17:20:36
972
原创 分治法:归并排序分析
笔记在云上,连接如下http://note.youdao.com/share/?id=a03a07e8becba0e4073fe0882c5ab051&type=note
2014-12-22 00:28:13
552
原创 01算法概论
复杂度: 空间复杂度:运行市需要的设备的数量 时间复杂度:算法分析: 输入规模衡量 运行时间衡量 最坏情况不平均情况 增长量级(增长量级、增长率)·关于数学术语和记号(a)表示f(n)与g(n)同等规模(b)表示f(n)比g(n)规模小(b)表示f(n)比g(n)规模大
2014-12-22 00:12:47
396
基于Lucas-kanade目标跟踪算法
2015-02-27
基于前向后向光流的目标跟踪(Forward-Backward Error: Automatic Detection of Tracking Failures)
2013-03-18
基于HoG特征和粒子滤波的跟踪:C、Opencv、Matlab
2013-03-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人