wangrunjie1986-优快云博客

转载如何选择机器学习分类器？

如何选择机器学习分类器？你知道如何为你的分类问题选择合适的机器学习算法吗？当然，如果你真正关心准确率，那么最佳方法是测试各种不同的算法（同时还要确保对每个算法测试不同参数），然后通过交叉验证选择最好的一个。但是，如果你只是为你的问题寻找一个“足够好”的算法，或者一个起点，这里有一些我这些年发现的还不错的一般准则。你的训练集有多大？如果训练集很小，那么高偏差/低方

2015-09-30 11:27:55 553

转载 Git 少用 Pull 多用 Fetch 和 Merge

本文有点长而且有点乱，但就像Mark Twain Blaise Pascal的笑话里说的那样：我没有时间让它更短些。在Git的邮件列表里有很多关于本文的讨论，我会尽量把其中相关的观点列在下面。我最常说的关于git使用的一个经验就是：不要用git pull，用git fetch和git merge代替它。git pull的问题是它把过程的细节都隐藏了起来，以至于你不用去了解g

2014-10-14 13:08:28 737

转载用python爬虫抓站的一些技巧总结

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少

2014-10-11 10:42:45 881

转载数据挖掘工程师笔试及答案整理

2013百度校园招聘数据挖掘工程师一、简答题（30分）1、简述数据库操作的步骤（10分）步骤：建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒，了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外，对实时性要求不强时，可以使用数据库缓存。2、TCP/IP的四层结构（10

2014-09-26 16:11:35 967

转载员工3个月内离职和2年左右离职，差别大了去了……

员工离职，大多数情况下是一个双输的格局。员工大多都是忍无可忍的情况下才采取这种双输的激进做法，以换取内心的平衡。因此，不要期望员工在离职面谈中跟你说出真正离职的原因，80%以上的员工在离职的时候所说的原因只是为了顾及双方的感受和承受能力。马云曾经说，员工离职主要原因只有两个：钱给的不够、心受委屈了。心受了什么委屈，具体来讲还要分很多方面。光从在职时间长短来讲，员工进公司2周离职，与

2014-09-25 10:35:30 5998

转载常见面试之机器学习算法思想简单梳理

常见面试之机器学习算法思想简单梳理2014-09-22 数盟【数盟倡导”数据创造价值“，致力于打造最卓越的数据科学交流平台，为企业、个人提供最卓越的服务】【提示】文章略长，并且很专业，建议专业人士或喜欢死磕技术人士在大屏下观看前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗

2014-09-24 13:35:24 2004

转载逻辑回归(logistic regression)

logistic regression可以解决分类问题，即输出的结果只有0和1两种，比如，对于邮件的判断只有是或者否。这种分类问题使用传统的线性回归并不能很好的解决。一个小例子例如，当我们根据肿瘤的大小判断一个肿瘤是不是良性的时候，输出结果只有是或者否，用1和0表示，给定的样本点，并且我们使用传统的线性回归问题解决拟合的函数图像如下：图像中我们可以根据拟合曲线，

2014-09-10 16:29:56 794

原创 Spark RDD Operations

Spark RDD Operations RDD支持两种操作：转换（transformation）从现有的数据集创建一个新的数据集；而动作（actions）在数据集上运行计算后，返回一个值给驱动程序。例如，map就是一种转换，它将数据集每一个元素都传递给函数，并返回一个新的分布数据集表示结果。另一方面，reduce是一种动作，通过一些函数将所有的元素叠加起来，并将最终结果返回给Drive

2014-07-10 17:00:05 1701

转载 Science上发表的超赞聚类算法

作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.算法思想该算法的假设是类簇的中心由一些局部密度比较低的点围绕, 并且这些点距离其他有高局部密度的点的距离都比较大. 首先定义两个值: 局部密度ρi以及到高局部密度点的距离δi:ρi=∑jχ(dij−dc)其中

2014-07-04 11:04:50 3455

转载搭建coreseek(sphinx+mmseg3)详细安装配置+php之sphinx扩展安装+php调用示例

搭建coreseek(sphinx+mmseg3)安装[第一步] 先安装mmseg3[plain] view plaincopyprint?cd /var/install wget http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz tar zxvf

2014-06-26 12:27:34 756

原创 MPI 环境搭建

搭建目的为解决lda单机运行瓶颈，而plda的并行架构基于MPI。MPI install目标机器：10.210.228.63 10.210.228.64 10.210.228.65安装步骤：Download mpich2-1.0.8.tar.gz from http://www.mpich.org/static/downloads/1.0.8/mkdir -p /d

2014-05-05 18:40:17 966

转载从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现

〇.说明本文的所有代码均可在 DML 找到，欢迎点星星。一.引入推荐系统（主要是CF）是我在参加百度的电影推荐算法比赛的时候才临时学的，虽然没拿什么奖，但是知识却是到手了，一直想写一篇关于推荐系统的文章总结下，这次借着完善DML写一下，权当是总结了。不过真正的推荐系统当然不会这么简单，往往是很多算法交错在一起，本文只是入门水平的总结罢了

2014-04-17 13:53:36 906

原创读 Forecasting High-Dimensional Data

ABSTRACT•Challenging–manypossible attribute combinationsthat needto be forecast•Challenging–manypossible attribute combinationsthat needto be forecast•Address–onlya sub-set of attr

2014-04-16 14:19:19 1086

转载三次指数平滑法(Holt-Winters)

在时间序列中，我们需要基于该时间序列当前已有的数据来预测其在之后的走势，三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。时间序列数据一般有以下几种特点：1.趋势(Trend) 2. 季节性(Seasonality)。趋势描述的是时间序列的整体走势，比如总体上升或者总

2014-04-16 14:06:20 7198

转载 Learning to Rank 简介

去年实习时，因为项目需要，接触了一下Learning to Rank(以下简称L2R)，感觉很有意思，也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中，并提出了一些新的理论和算法，不仅有效地解决了排序的问题，其中一些算法(比如LambdaRank)的思想非常新颖，可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位，L2R可以被广泛的应用在信息(文档)检索，协同过滤等领域。

2014-04-16 13:57:54 1310

转载 STL sort源码剖析

转自：http://www.cnblogs.com/imAkaka/articles/2407877.htmlSTL的sort()算法，数据量大时采用Quick Sort，分段递归排序，一旦分段后的数据量小于某个门槛，为避免Quick Sort的递归调用带来过大的额外负荷，就改用Insertion Sort。如果递归层次过深，还会改用Heap Sort。本文先分别介绍这个三个S

2014-03-24 14:38:29 521

转载网络编程常见问题

Block IO & Non-Block IO[cpp] view plaincopy//fcntl函数可以将一个socket句柄设置成非阻塞模式 flags = fcntl(sockfd, F_GETFL, 0); fcntl(sockfd, F_SETFL, flags | O_NONBLOCK); //recv, se

2014-03-24 14:35:52 1897

先定义好我们所使用的符号语言，大写的表示我们input的自变量，其中表示自变量有p个维度，也可以说其有p个feature或者p个属性，每个维度可以是离散的或者连续的值。大写的表示我们需要output的因变量，其中表示因变量有m个维度，每个维度可以是离散值或者连续值，通常情况下m=1，下面如果没有特殊说明都是考虑m=1的情况。小写的表示所有的样本的自变量，其中每表示第i个样本自变量的值，小写的所有的

2013-12-16 13:09:00 821

转载 kd tree

kd树的应用很广，在图像特征匹配方面，也就是最终应用到图像设别，图像检索方面。对于地图的应用，像附近点搜索功能，对于三维当中的，碰撞检测，光线跟踪等等。总的来说呢，kd树就是一个搜索策略。kd树搜索什么呢，首先介绍一下kd树Kd-树是K-dimension tree的缩写，是对数据点在k维空间（如二维(x，y)，三维(x，y，z)，k维(x1，x2，x3..)）中划分的一种数据结构，主

2013-11-28 13:04:56 1329

转载关于NoSQL的思考：为什么我们要优化存储的写性能

在NoSQL的许多产品中，我们通过benchmark可以看到的都是写性能极度提升，而读性能并没有太大的涨幅甚至相对传统RDBMS还有下降。比如Cassandra，MongoDB这两个NoSQL的杰出代表。究其原因，我们可能会想到是因为当前UGC模式已经发展到白热化，用户产生内容导致读写比已经接近或者说小于1：1。但是我认为这绝不是个中真实原因。1. 缓存导致存储的raw read效率不

2013-11-16 16:31:02 900

原创 Hive调研

Hive是什么Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。Hive可以将结构化的数据存储在数据仓库中，通过自己的SQL去查询分析需要的内容，这套SQL简称Hive SQL。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。Hive在Hado

2013-02-27 18:27:33 553

原创 C中的字符串拷贝问题

1．为什么用strlcpy而不是strcpy、strncpy strcpy函数原型：#include char *strcpy(char *dest, constchar *src);功能：把字符串src中的内容copy到dest中，包括字符串src的结束标志’\0’也一起copy，返回：指向dest的指针。存在的安全问题：当strlen(src)

2013-02-27 18:25:23 890

转载 crontab中的环境变量问题

大家都知道crontab是个好东东，可以定时执行一些任务，帮助你监控系统状况，帮助你每天重复的做一些机械的事情。但是crontab有一个坏毛病，就是它总是不会缺省的从用户profile文件中读取环境变量参数，经常导致在手工执行某个脚本时是成功的，但是到crontab中试图让它定期执行时就是会出错原先我用一个很傻的办法，就是在脚本中直接指定所有的环境变量参数，每次写脚本都要写好多好多PATH啦，

2013-02-26 12:15:03 304

转载理解inode

inode是一个重要概念，是理解Unix/Linux文件系统和硬盘储存的基础。我觉得，理解inode，不仅有助于提高系统操作水平，还有助于体会Unix设计哲学，即如何把底层的复杂性抽象成一个简单概念，从而大大简化用户接口。下面就是我的inode学习笔记，尽量保持简单。===================================理解inode

2013-02-26 12:07:16 274

转载 mysql replication 基本原理

1、复制进程Mysql的复制（Replication）是一个异步的复制，从一个Mysql instace（称之为Master）复制到另一个Mysql instance（称之Slave）。实现整个复制操作主要由三个进程完成的，其中两个进程在Slave（Sql进程和IO进程），另外一个进程在 Master（IO进程）上。要实施复制，首先必须打开Master端的binary log（bin-lo

2013-02-26 10:28:16 331

转载 Coursera公开课笔记: 斯坦福大学机器学习第四课“多变量线性回归(Linear Regression with Multiple Variables)”

斯坦福大学机器学习第四课"多变量线性回归“学习笔记，本次课程主要包括7部分：1) Multiple features(多维特征)2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用)3) Gradient descent in practice I: Feature Scaling(梯度下降实践1：特征归一化)4)

2013-02-04 10:51:23 1189

转载 Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”

斯坦福大学机器学习第二课"单变量线性回归“学习笔记，本次课程主要包括7部分：1) Model representation(模型表示)2) Cost function(代价函数，成本函数)3) Cost function intuition I(直观解释1)4) Cost function intuition II(直观解释2)5) Gradient descent(梯度下降)

2013-02-04 10:48:45 1433

转载 Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”

斯坦福大学机器学习第六课"逻辑回归“学习笔记，本次课程主要包括7部分：1) Classification(分类)2) Hypothesis Representation3) Decision boundary(决策边界)4) Cost function(代价函数，成本函数)5) Simplified cost function and gradient descent(简化版代

2013-02-04 10:41:47 2064

转载求逆序对数

设A[1..n]是一个包含N个非负整数的数组。如果在i〈 j的情况下，有A〉A[j]，则(i,j)就称为A中的一个逆序对。例如，数组（3，1，4，5，2）的“逆序对”有,，共4个。使用归并排序可以用O(nlogn)的时间解决统计逆序对个数的问题定义：对于一个给定的数列,如果有iAj,则称(i,j)为一逆序对. 要解决的问题是,给出一个数列,求出这个数列包含多少个逆序对今天

2012-12-12 14:49:38 387

wangrunjie1986