- 博客(16)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 使用vs2013 debug xgboost C++码源
使用vs2013 debug xgboost C++码源引言xgboost有python,R借口可以方便的使用,其利用libxgboost.dll调用由C++编写的核心类,但是无法debug程序的每一条语句,因此有必要运行一下C++版本xgboost。下面是简要步骤。 1.从https://github.com/dmlc/xgboost下载xgboost码源 2.使用vs2013编译xgboos
2017-04-06 22:21:42
2766
2
原创 使用win10性能监视器获得系统性能数据
可以使用 Windows 性能监视器实时检查运行程序影响计算机性能的方式并通过收集日志数据供以后分析使用。Windows 性能监视器使用可合并进数据收集器集的性能计数器、事件跟踪数据和配置信息。“性能计数器”是系统状态或活动情况的度量单位。它们可以包含在操作系统中或作为个别应用程序的一部分。Windows 性能监视器以指定的时间间隔请求性能计数器的当前值。“事件跟踪数据”是
2016-08-14 21:45:32
17310
2
原创 解决hadoop伪分布式下hdfs存储空间不足的问题
运行环境:虚拟机下Ubuntu15.0 问题的产生:在运行hadoop fs -put的指令时把一个大型文件从本地复制到hdfs时,运行到一半突然复制中断,报“name node is in safe mode ”的错误提示。 解决问题的思路:“name node is in safe mode”的提示意味着此时hdfs处于安全模式,只能对hdfs文件进行读操作,不能进行写操作,所以我想是否可以
2016-05-23 09:38:45
11959
原创 win10主机如何在校园网的条件下在虚拟机上安装Hadoop并实现远程SSH操控
前言:前段时间在实验室的机器上安装了hadoop伪分布式环境,具体是主机是win10环境,虚拟机是VMware上的Ubuntu15.0系统,同时实现了可以在主机上远程SSH操控虚拟机、主机与虚拟机之间的文件传输,和利用hadoop-eclipse插件实现在win10上运行hadoop程序,在配置的过程中遇到了很多问题现在总结如下:环境:主机win10操作系统 虚拟机U
2016-04-29 15:09:39
6358
原创 独立成分分析算法(ICA)
ICA算法考虑这样的一个问题,叫做”鸡尾酒派对问题”。这里,在派对上,有n个说话的人单独地说话,并且所有在房间里的麦克分只能收到n个说话人的重叠的声音。但是我们说有n个不同的麦克分位于房间里,因为每个麦克分距离每个说话者的距离是不同的。使用这些麦克分的录音记录,我们是否可以分离出原始n个说话者的语音信号呢? 为了正式化这个问题,我们假设我们有一些数据s∈Rns\in \mathbb R^n,是
2016-03-01 15:47:45
9992
原创 主成分分析法
主成分分析法在本篇博客中,我们将会介绍一种方法,叫做主成分分析法(PCA),这种方法试图确定数据接近位于的子空间。PCA相对于因子分析法将会更为直接,它仅仅需要进行特征向量的计算(在Matlab中使用eig函数),并不需要使用EM算法。 假设我们有这样的一个数据集{x(i);i=1,...,m}\{x^{(i)};i=1,...,m\}表示m个不同种类的汽车发动机的属性,例如他们的最大速度,选
2016-02-27 19:31:31
3933
原创 EM聚类算法(二)
在之前的文章中,我们讨论了将EM算法应用于拟合混合高斯模型。在这里,我们将要把EM算法应用于更宽的领域,并且说明在有潜在变量的情况下将他应用于很多的估计问题中。我们首先要介绍一个有用的结果叫做Jensen不等式1 Jensen不等式让ff是一个主导数据集的函数。回想ff是一个凸函数如果f′′(x)≥0f''(x)\ge0。如果对于所有的f′′(x)>0f''(x)\gt0,我们说ff是严格的凸函数。
2016-02-19 10:07:43
2523
原创 EM聚类算法(一)
混合高斯和EM算法 针对于密度估计,这里我们讨论EM(Expectation-Maximization)算法。 通常我们会给定一个训练集{x(1),...,x(m)}\{x^{(1)},...,x^{(m)}\}。因为要处理非监督问题,所以这些点没有给出所属类别。 我们通过联合分布p(x(i),z(i))=p(x(i)|z(i))p(z(i))p(x^{(i)},z^{(i)})=p(
2016-02-17 13:00:21
6386
原创 K-means聚类算法
K-means聚集算法 在聚集问题中,我们给定一个训练集{x(1),...,x(m)}\{x^{(1)},...,x^{(m)}\},并且想把这些数据聚集到一些紧密结合的”类”。这里,通常x(i)∈Rx^{(i)}\in\Bbb R,但是对应的y(i)y^{(i)}没有给定。所以这是一个非监督学习问题。 K-means聚集算法的步骤如下: 1.随机初始化簇中心μ1,μ2,...,μk∈Rn\m
2016-02-16 21:42:35
839
原创 正则化和模型选择
说明 假设我们试图在多个模型中为一个学习问题选择一个合适的模型。例如,我们可能使用一个多项式回归模型hθ(x)=g(θ0+θ1x+θ2x2+...+θkxk)h_\theta(x)=g(\theta_0+\theta_1x+\theta_2x^2+...+\theta_kx^k)想要选择K应该等于0,1…还是10呢?我们如何自动地选择一个模型,这个模型可以表示一个好的折衷在偏差和方差之间呢?二者选
2016-02-05 08:40:11
1891
原创 SMO算法
SMO(序列最小优化)算法,由John Platt提出,给出了一种有效的解决由SVM导出的对偶问题的方法,让我们首先先介绍一下坐标上升算法。坐标上升考虑到解决非限制最优化问题: maxαW(α1,α2,...,αm)\underset{\alpha}{\mathrm{max}}W(\alpha_1,\alpha_2,...,\alpha_m) 现在,我们认为W仅仅
2016-01-29 14:04:22
2927
原创 支持向量机(SVM)(三)
核函数基于线性回归的知识我们可以把一个特征向量x映射到Φ(x)=⎡⎣⎢xx2x3⎤⎦⎥\Phi(x)=\begin{bmatrix} x\\ x^2\\ x^3\\ \end{bmatrix} 为了代替SVM使用原来的输入属性xx,我们将要使用特征值ϕ(x)\phi(x),因此我们仅仅需要用ϕ\phi代替原来算法中的xx。
2016-01-27 19:41:49
620
原创 手把手教你免费看IOS微信红包照片
说明:这里介绍了一种在IOS上可以不用发红包就可以看到红包照片的方法。原理:实际上微信朋友圈的红包照片是在客户端才加上的那一层膜,在发了红包之后会把膜去掉,也就是在从服务器传到客户端的照片还是不带膜的,因此我们只要在客户端之前读取出图片数据即可。这里介绍一种使用Charles抓取ios图片的方法。步骤:1、下载先到它的官网http://www.charlesproxy.com/可下载到最新版本,打开
2016-01-27 12:54:57
1177
原创 支持向量机(SVM)(二)
前言上篇博客已经推导出了原始最优化问题,这篇博客将会将问题利用拉格朗日对偶化使问题的到简化以方便处理。拉格朗日对偶让我们先暂时把SVM和最大化间隔分类器搁置在一边,来讨论解决限制最优化问题。 考虑一个如下形式的问题: minwf(w)min_w f(w) s.t.hi(w)=0,i=1,...,ls.t. h_i(w)=0,i=1,...,l 我们使用拉格朗日数乘
2016-01-26 14:38:57
483
原创 支持向量机(SVM)(一)
前言下面将会介绍支持向量机(SVM)学习算法。SVM被很多学者认为是现有的最好的监督学习算法。为了介绍监督学习算法我们,我们需要首先讨论关于间隔和如何用最大的“间隔”划分数据。接下来我们将会讨论最优化间隔分类器,因此我们不得不让我们了解拉格朗日对偶问题。我们也会见到核,他会使我们一种在非常高的维度(比如无限维)特征的空间有效的利用SVM,最后,我们将会以一个SMO算法结束,这种算法有效的实现了SVM
2016-01-23 23:14:10
709
原创 机器学习导论
说明:由于这里讲的是导论所以不对具体算法进行阐述1.机器学习背景机器学习可谓是当今CS最火的研究领域,其研究的核心内容就是通过学习算法,使机器学会自己学习。使得程序员正真从变化的问题中解放出来,以不变应万变,让机器从现有的数据中发现规律,从而应用于实际问题,比如机器人控制,医疗诊断,基因研究等领域。机器学习算法主要分为两大类,监督算法和非监督算法2.监督算法监督算法又称导师算法,即此类算法需要有预先
2016-01-19 22:01:21
974
hadoop安全模式无法退出
2016-05-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人