- 博客(54)
- 资源 (7)
- 收藏
- 关注
原创 读“机器学习中的范数规则化之(一)L0、L1与L2范数”笔记
项目中遇到范数正则化问题,今天拜读了邹晓艺大神的博文《机器学习中的范数规则化之(一)L0、L1与L2范数》,1)其中L0、L1主要是用来特征选择,能够将含有信息量小的特征权重优化为0,从而降低特征的维度2)L2主要是来防止过拟合(其实在实际工程中,有些反而需要我们去过拟合,比如广告的点击),此正则化偏向于将特征的权重都调整的比较小,分布相对比较均匀,而不是将特征权重调整为0。这样为什么能够
2015-10-08 20:09:46
3616
转载 从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什
2015-09-25 17:28:07
606
转载 谈C/C++指针精髓
谈C/C++指针精髓作者简介:马伟,现任大方软件开发工程师,在C家族(C,C++,C# 呵呵,因为都有个C,所以我习惯称为C家族)方面有一定的见解。E-MAIL:madengwei-88163@163.com QQ:328941810 MSN:madengwei@hotmail.com网站和个人主页:www.itspzo.com[摘要]指针是C和C+
2015-09-25 13:33:09
634
转载 struct和union结构体和联合体的区别
共用体构造数据类型,也叫联合体用途:使几个不同类型的变量共占一段内存(相互覆盖)结构体是一种构造数据类型用途:把不同类型的数据组合成一个整体-------自定义数据类型---------------------------------------------------------------结构体变量所占内存长度是各成员占的内存长度的总和。共同体变量所占内
2015-09-25 12:27:09
717
原创 关于重载运算符的思考
在C++中重载运算符,能使运算符的功能得到扩展,如能够支持对类或结构体的操作. 其实重载运算符也是一种特殊的函数调用方式,重载的方式有两种,一种是作为成员函数,一种是作为友元函数。其中[ ]只能作为成员函数进行重载,类属关系运算符“.” 、成员指针运算符“.*” 、作用域运算符“::” 、sizeof运算符和三目运算符“?:”是不能够重载的。当作为成员函数的时候,重载函数的参数
2015-09-25 12:26:23
538
转载 动态层次聚类方法示例
Connections 17(2):78-80Copyright 1994 INSNAStephen P. BorgattiUniversity of South CarolinaGiven a set of N items to be clustered, and an NxN distance (or similarity) matrix, the basic proc
2015-09-25 12:24:58
1328
转载 浅谈const的使用
在C++中经常会涉及到const的使用,而且const的使用也同样困扰着许多刚接触C++的程序员,现将C++中常用到的const的使用总结于下: 1.const用于各种常量定义 表示该常量在程序中是不可改变,如我们定义pi=3.14,则为const float pi=3.14;这和我们在C中常用的:#define pi 3.14 表达的意思是相同的,经过const修饰后,
2015-09-25 12:24:11
581
原创 linux下Clucene-2.3.3.4安装方法
一、安装需要软件1.g++2.cmake3.zlib(安装方法apt-get insatll zlib1g-dev,使用数据源是网易的镜像,注意zlib后是“一”不是“l”)二、安装步骤1.cd到clucene目录下,输入“cmake -G KDevelop3”2.执行命令:make3.安装:sudo make install三、测试
2015-09-25 12:23:06
788
原创 在CLucene-2.3.3.4中加入ICTCLAS实现中文分词
一、修改Mic中的两个编码转化函数void Misc::_cpywideToChar(const wchar_t* s, char* d, size_t len){ //size_t sLen = wcslen(s); //for ( uint32_t i=0;i // d[i] = LUCENE_OOR_CHAR(s[i]); size_t
2015-09-25 12:22:03
1079
转载 函数指针的用法(C++)
转自:http://blog.sina.com.cn/s/blog_5e71ee700100fo13.html作者:俊杰 typedef函数指针的用法(C++) 代码简化, 促进跨平台开发的目的. typedef 行为有点像 #define 宏,用其实际类型替代同义字。 不同点:typedef 在编译时被解释,因此让编译器来应付超越预处
2015-09-25 12:21:20
421
转载 编程中无穷大常量的设定技巧
如果问题中各数据的范围明确,那么无穷大的设定不是问题,在不明确的情况下,很多程序员都取0x7fffffff作为无穷大,因为这是32-bit int的最大值。如果这个无穷大只用于一般的比较(比如求最小值时min变量的初值),那么0x7fffffff确实是一个完美的选择,但是在更多的情况下,0x7fffffff并不是一个好的选择。很多时候我们并不只是单纯拿无穷大来作比较,而是会运算后再做比较,
2015-09-25 12:20:16
489
原创 不许用%和/来实现求任意数除以3的余数
转载请注明出处,声明如下:作者:peizhongyou前几天参加一个编程竞赛,涉及到部分位运算的知识,准备不足挂了。事后在网上搜了一下位运算的介绍看到《位运算之美》这篇博客,其中提到了一个题目“不许用%和/来实现求任意数除以3的余数”感觉挺有意思,可惜博文中没有介绍方法,没办法只能自己解决了,解决方法如下:第一种方法:循环减法如果不用位运算,我们可以用一种最
2015-09-25 12:18:25
2635
转载 谈一谈sizeof与strlen
sizeof与strlen都可以用来测量字符数组的大小,通过一个列子来看它们的不同例: char *ss1 = "abcdefg"; char ss2[] = "abcdefg"; char ss3[10] = "abcdefg"; cout cout cout cou
2015-09-25 12:16:38
409
转载 LibSVM学习(三)——LibSVM使用规范
其实,这部分写也是多余,google一下“libsvm使用”,就会N多的资源,但是,为了让你少费点心,在这里就简单的介绍一下,有不清楚的只有动动你的mouse了。需要说明的是,2.89版本以前,都是svmscale、svmtrain和svmpredict,最新的是svm-scale、svm-train和svm-predict,要是用不习惯,只需要把那四个exe文件名去掉中间的短横线,改成svmsc
2015-09-25 12:01:22
389
转载 C++矩阵运算库推荐
最近在几个地方都看到有人问C++下用什么矩阵运算库比较好,顺便做了个调查,做一些相关的推荐吧。主要针对稠密矩阵,有时间会再写一个稀疏矩阵的推荐。地址:http://arma.sourceforge.net/许可证:MPL 2.0目前使用比较广的C++矩阵运算库之一,是在C++下使用Matlab方式操作矩阵很好的选择,许多Matlab的矩阵操作函数都可以找到对应,这对习惯了M
2015-09-25 12:00:39
819
转载 A C++ implementaton of MapReduce without distributed filesystem
MapReduce Lite is a C++ implementation of the MapReduce programming paradigm.First of all, MapReduce Lite is Lite!It does not rely on a distributed filesystem -- it can simply use local filesy
2015-09-25 11:59:35
381
转载 MapReduce基础
这篇文章翻译自Yahoo的Hadoop教程,很久之前就看过了,感觉还不错。最近想总结一下以前学的东西,看到现在关于Hadoop的中文资料还比较少,就有了把它翻译出来的想法,希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分,我下去还会选一些来翻译,一般来说只翻译讲原理的,操作类的就不翻译了。水平有限,不妥之处,请指正(感觉翻译过来后,读起来倒是没英文的顺畅:)。废话说完,正文开始
2015-09-25 11:58:48
394
转载 TopicModelCode
Topic Models C++This is a C++ implementation of topic models with variational inferenceIt include LDA, supervised-LDA, HDP, supervised HDP, online HDP, online SHDP.Dowload Code herePlease
2015-09-25 11:57:46
1332
转载 LDA基本介绍以及LDA源码分析(BLEI)
Blei基本介绍:topic model,之前已经介绍过(http://blog.youkuaiyun.com/hxxiaopei/article/details/7617838)topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user url的聚
2015-09-25 11:56:59
864
转载 数学中竟然还有这样的定理!
谁说数学是枯燥的?在数学里,有很多欢乐而又深刻的数学定理。这些充满生活气息的数学定理,不但深受数学家们的喜爱,在数学迷的圈子里也广为流传。定理:喝醉的酒鬼总能找到回家的路,喝醉的小鸟则可能永远也回不了家。假设有一条水平直线,从某个位置出发,每次有 50% 的概率向左走1米,有50%的概率向右走1米。按照这种方式无限地随机游走下去,最终能回到出发点的概率是多少?答案是10
2015-09-25 11:36:49
737
转载 NULL和nullptr
转自:http://blog.kingsamchen.com/archives/6970.NULL的前世今生对于C和C++程序员来说,一定不会对NULL感到陌生。但是C和C++中的NULL却不等价(别惊讶,这是真的)。NULL表示指针不指向任何对象,但是问题在于,NULL不是关键字,而只是一个宏定义(macro)。在C中,习惯将NULL定义为void*指针值0:
2015-09-25 11:35:16
1749
转载 搜索技术博客-淘宝
关注技术 关注搜索 关注淘宝 “机器学习”这个名词对大家来说想必不是一个陌生的词汇,特别对算法组的同学来说,工作中或多或少接触使用过这种“高科技“。对于我来说,刚来淘宝工作一个月就开始接触了机器学习,当时做主搜索功夫熊猫项目,和小致飘雪一起做交易模型,正是使用了机器学习的方法,也首次接触了treelink模型。做完那个项目后对机器学习解决问题的流程有了一定的了解,但对其内部的工
2015-09-25 11:33:15
1866
转载 win7/64位下python2.7、easy_install、numpy安装经验
一、python的安装1、下载python2.7,下载地址:http://www.python.org/,选择系统相应版本,我选择是的是python2.7.6 Windows X86-64 MSI Installer (2.7.6rc1) [1] (sig)2、直接点击安装,可安装在D盘目录下python27文件下3、设置环境变量,在“我的电脑”属性中,
2015-09-25 11:32:18
28580
转载 梯度下降法学习速率设置技巧
转自:http://blog.datumbox.com/tuning-the-learning-rate-in-gradient-descent/In most Supervised Machine Learning problems we need to define a model and estimate its parameters based on a training
2015-09-25 11:31:28
1246
转载 jieba(结巴)Python分词器加载到Eclipse方法
参考:http://www.oschina.net/p/jieba/news一、结巴的安装Python 2.x 下的安装全自动安装:easy_install jieba 或者 pip install jieba半自动安装:先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install
2015-09-25 11:30:47
2950
转载 算法为王:且看Mac Mini如何超越1636节点的Hadoop
摘要:1636节点Hadoop集群需处理7个小时的工作量,Mac Mini只用一个小时就完成了,听起来有些天方夜谭,然而涉及到算法问题,似乎一切都有可能。小小的Mac Mini计算性能可以超过由1636个节点组成的Hadoop集群,即使是在某些用例下听起来也更像天方夜谭,然而近日GraphChi却声称做到了这一点。长话短说,在看这个壮举之前,我们有必要先了解一下GraphLab的Gra
2015-09-25 11:29:15
986
转载 机器学习经典论文/survey合集 - 算法组
Active LearningApplicationsBiologyClassificationSupervised Machine Learning: A Review of Classification Techniques, Kotsiantis, 2007ClusteringXML Data Clustering: An Overview,
2015-09-25 11:28:13
1054
转载 Shell脚本调用mysql语句
转自:http://cdc.zhaopin.com/infomation/Industryinfo/contentinfo?articleid=1499759712&Category=160400方法一:mysql -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句,不用在mysql的提示符下运行mysql,即可以在sh
2015-09-25 11:26:45
456
转载 emacs基本命令
一、退出直接退出:C-x C-c临时退出:C-x C-z,可输入%emacs再次恢复二、查找向后查找:C-s向前查找:C-r正则查找:C-M-s三、保存C-x C-s四、粘贴、复制、剪切粘贴:C-y复制:M-w剪切:C-w五、文件恢复emacs有自动保存功能,会产生#filename#的
2015-09-25 11:26:08
486
原创 Redis安装及C++调用redis
一、Redis现在及安装下载网址:http://redis.io/download下载方式:wget http://download.redis.io/releases/redis-2.8.3.tar.gz下载不同的版本,可以通过更改后面的版本号来下载然后执行:$ tar xzf redis-2.8.3.tar.gz$ cd redis-2.8.3$
2015-09-25 11:25:16
696
转载 机器学习经典书籍
前面有一篇机器学习经典论文/survey合集,本文总结了机器学习的经典书籍,包括数学基础和算法理论的书籍。本文会保持更新,欢迎推荐。《数学之美》 PDF作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》(《集体智慧编程》)PDF作者Toby Se
2015-09-25 11:23:52
1219
转载 Linux中find常见用法
一、Linux中find常见用法示例·find path -option [ -print ] [ -exec -ok command ] {} \;#-print 将查找到的文件输出到标准输出#-exec command {} \; -----将查到的文件执行command操作,{} 和 \;之间有空格#-o
2015-09-25 11:22:45
366
转载 gdb 多线程调试
http://hi.baidu.com/hcq11/blog/item/9f5bfc6e696209d680cb4a25.html http://hi.baidu.com/litto/blog/item/759389dd198111375882dd1e.html http://blogold.chinaunix.net/u3/94700/showart_2389432.html
2015-09-25 11:21:31
364
转载 深浅拷贝及释放
请看下面的程序,说说会出现什么问题?#include #include #include using namespace std; class CDemo { public: CDemo():str(NULL){}; ~CDemo() { if(str) delete[] str;
2015-09-25 11:20:45
311
转载 sscanf函数和正则表达式
此文所有的实验都是基于下面的程序:char str[10];for (int i = 0; i 执行完后str的值为str = "!!!!!!!!!!"我们把str的每个字符都初始化为惊叹号,当str的值发生变化时,使用printf打印str的值,对比先前的惊叹号,这样就可以方便的观察str发生了怎样的变化。下面我们做几个小实验,看看使用sscanf和正则表
2015-09-25 11:19:33
262
转载 gdb的使用(二) 堆栈跟踪、core文件、连接到其它进程
堆栈跟踪程序“调用堆栈”是当前函数之前的所有已调用函数的列表(包括当前函数)。每个函数及其变量都被分配了一个“帧”,最近调用的函数在 0 号帧中(“底部”帧)。backtrace / bt:要打印堆栈,发出命令 'bt'('backtrace' [回溯] 的缩写)。在显示帧信息的最后的行号表示了被调用的函数所在行,可以用list+行号的方式查看。例如:---------
2015-09-25 11:18:50
644
转载 Debugging Memory Errors in C/C++
This page describes a few key techniques I've learned about how to debug programs that are suspected of containing memory errors. Principally, this includes using memory after it has been freed, and w
2015-09-25 11:17:54
616
转载 linux中Find命令的使用
今天一个很偶然的机会看到了linux中的find命令,然后我在网上搜索了一下这方面的内容,为了方便大家学习参考,我就总结一下,一上午的劳动成果,呵呵!首先是find的语法:find [起始目录] 寻找条件 操作还有种表述方式:find PATH OPTION [-exec COMMAND { } \;]因为find命令会根据我们给的option,也就是寻找条件从我们
2015-09-25 11:17:21
532
转载 数据结构之线段树
转自:http://dongxicheng.org/structure/segment-tree/作者:Dong1、概述线段树,也叫区间树,是一个完全二叉树,它在各个节点保存一条线段(即“子数组”),因而常用于解决数列维护问题,它基本能保证每个操作的复杂度为O(lgN)。2、线段树基本操作线段树的基本操作主要包括构造线段树,区间查询和区间修改。(
2015-09-25 11:15:00
282
转载 C语言的整型溢出问题
转自:http://coolshell.cn/articles/11466.html#jtss-tsina作者:陈浩今天看到一篇关于整型溢出的文章,受益匪浅,想不到有这么深的学问,转载一下留用。什么是整型溢出C语言的整型问题相信大家并不陌生了。对于整型溢出,分为无符号整型溢出和有符号整型溢出。对于unsigned整型溢出,C的规范是有定义的——“溢出后的数会
2015-09-25 11:13:06
402
遗传算法和遗传规划
2012-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人