- 博客(33)
- 收藏
- 关注
转载 初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个
2014-11-05 16:02:13
717
转载 软件项目经理职责
国际软件项目经理的七大素质: 1、在一个或多个应用领域内使用整合了道德、法律和经济问题的工程方法来设计合适的解决方案。2、 懂得确定客户需求并将其转换成软件需求的过程。3、 履行项目经理的职责,善于处理技术和管理方面的事务。4、 懂得并使用有用的项目管理工具。5、调谐互相冲突的目标,在成本、时间、知识、现有系统以及组织的限制下找出可接受的折衷办法。6、在一个典型的软件开
2014-03-19 11:53:51
956
转载 软件开发过程及岗位职责
本文主要讲述如何组织开发软件项目,使之更加快速、有效的完成。并分成以下几个阶段进行详细讲述:项目计划阶段、需求分析阶段、软件开发阶段、测试阶段、管理软件开发过程、各参与角色的具体职责描述及对人员的要求。最后提供了一些文档标准参考。 本开发过程可以作为中小型(3-7人)软件项目的开发指南,而大型软件项目使用RUP会更好。 总体流程如下:计划阶段-
2014-03-19 11:51:40
1941
转载 特征选择
-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀,这样
2014-03-10 11:16:36
1121
原创 Topic Model 与 LDA
参见:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcd
2014-02-13 14:14:14
774
原创 广告精准投放笔记
参考资料:探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
2014-01-16 10:45:19
898
原创 c++ xml 解析库 pugixml
之前一直使用 boost 的 property tree,测试显示解析速度慢,最近使用 pugixaml,速度提高很多,还支持 xpath。留几个链接,已被以后查阅:pugixml 一个xml解析库 简单快速, 支持XPath表达式, 感谢作者pugixml库的使用(by yukin_xue)
2013-10-08 14:21:08
979
转载 linux环境下 C++ 性能测试工具 gprof 和 gprof2dot
1 简介改进应用程序的性能是一项非常耗时耗力的工作,但是究竟程序中是哪些函数消耗掉了大部分执行时间,这通常都不是非常明显的。GNU 编译器工具包所提供了一种剖析工具 GNU profiler(gprof)。gprof 可以为 Linux平台上的程序精确分析性能瓶颈。gprof精确地给出函数被调用的时间和次数,给出函数调用关系。gprof 用户手册网站 http://sourceware
2013-09-26 16:53:44
770
原创 SRILM 语言模型训练工具
1,下载2,安装make SRILM=$PWD3,配置将bin和bin/i686-m64添加到PATH环境变量中4,测试./ngram-count -help5,海量语料训练由于对于大规模语料进行语言模型的训练,经常会导致内存问题。经过测试,用srilm处理一个3G的语料,训练3元语言模型,32G内存根本就不够用。解决方案:把文件给分开了,然后分别算
2013-09-09 11:06:56
2651
原创 mahout 聚类实战
0,mahout的安装与配置mahout 0.81,准备数据2503篇文本文件,存放在texts目录中2,将文本文件转化为sequenceFile$ mahout seqdirectory -c utf8 -i texts -o seqfiles3,将sequenceFile生成文本文件$ mahout seqdumper -i seqfiles -o se
2013-09-05 11:08:56
1055
原创 语录
这方面(能保持10年 20年基本没太大变化,...,别3,5年就给我来个天翻地覆。),UNIX,LINUX就很不错。变迁少。技术积累有沉淀。倒非说人老了,不想学了,而是不同阶段该学不同的东西。从工具语言的学习,到技术点的学习,到系统框架的构建,到产品,商业模式的应用,人是不断一层层拔高的。实在经不起起点,工具语言的变来变去。 -------- 开源中国社区 中山野鬼。原帖:http://www
2012-08-14 16:28:24
344
转载 字符编码详解及由来
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。 开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同
2011-12-09 17:47:51
422
原创 我的linux下c++开发环境
1, 工具编辑器:emacs编译器:gcc调试器:gdb构建器:scons内存泄露器:valgrind版本控制器:subversion性能分析器:gprof文档生成器:doxygen2, 库STL:标准模板库glibc:glibc 是 GNU 发布的 libc 库,即 C 运行库。glibc 是 Linux 系统中最底层的 API
2011-12-09 13:11:42
539
转载 yum和apt-get的区别
一般来说著名的linux系统基本上分两大类: 1.RedHat系列:Redhat、Centos、Fedora等 2.Debian系列:Debian、Ubuntu等 RedHat 系列 1 常见的安装包格式 rpm包,安装rpm包的命令是“rpm -参数” 2 包管理工具 yum 3 支持tar包 Debian系列 1 常见的安装包
2011-11-01 17:06:09
580
转载 怎样才能成为一个优秀的产品经理?
现在,互联网公司里开始重视产品经理了,这是一个好事。以前互联网谈融资,谈商业模式,谈战略,很少有谈产品的,因为产品可以从国外抄,谁下手快谁就能获得先发优势。现在,互联网里的资本已经不成问题,抄袭速度都一样快了。这个时候,互联网比拼的就是谁能更好的理解用户需求,比谁能做出比别人更好的产品。此时,产品经理的作用至关重要。那么,怎样才能成为一个优秀的产品经理?或者说,一个优秀的产品经理需要具备哪些素
2011-10-12 15:38:53
452
转载 到底什么是产品经理?
我经常会追问产品经理到底是一个什么职位,他们的职责是什么?该如何培养产品经理呢?Marty Cagan的著作《Inspired》(中文名《启示录》)中曾如此描述“产品经理”这个职位:去发现有价值、可用且合理的产品。同样,我认为产品经理是商务、技术和用户体验三个岗位的交集。一个好的产品经理必须至少具有其中之一的从业经历、对三种岗位都有热情,同时还要与三种职业的从业者有很好的交情。业务:产
2011-10-12 15:36:49
449
原创 Fedora 下配置源 rpmfusion
rpmfusion 是为 Fedora 及 Red Hat Enterprise Linux 用户提供的一个软件包仓库。在这儿能看到如何配置 rpmfusion 源。
2011-10-09 10:40:41
972
原创 C++ 编码转换
采用 icu1,安装 icu# yum install libicu-devel2,调用 icudemo.c#include #include #include #include int main(int argc,
2011-09-22 16:16:21
991
原创 Fedora 安装 Adobe Flash
# yum install --nogpgcheck http://linuxdownload.adobe.com/adobe-release/adobe-release-i386-1.0-1.noarch.rpm# yum install --exclude
2011-09-15 14:18:58
512
原创 Java 应用显示中文乱码问题的解决方法
表现症状:1. Java 控制面板上部分中文显示乱码;2. Java 应用程序,比如 Netbeans,输入部分中文显示乱码;原因:显示中文字体乱码是由于 JRE 的字体造成解决方案:找一个可用于中文显示的字体(用增黑wqy 字体),更改 JRE 的字体。具体操作:$ sudo mkdir $JAVA_HOME/jre/lib/fonts/fallb
2011-08-11 12:02:25
1060
转载 同事的你
明天你是否会想起昨天你写的程序明天你是否还惦记曾经爱编程的你领导们都已想不起曾经加班的你我也是偶然看程序才想起同事的你谁聘了牛B烘烘的你谁安慰天天加班的你谁把你的设计做起谁给你做的升级你从前总是很小心从不把离职的事提起你也曾无意中说起薪水实在太低那时候屏幕总是在闪日子总过得太慢你总说离职遥遥无期转眼就各奔东西谁聘了牛B烘烘的你谁安慰天天加班的你谁看了我给你写的信谁把它删在垃圾文件夹里从前的日子都远去我也将有我
2011-03-15 10:22:00
331
转载 大数据量,海量数据 处理方法总结
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。<br /><br />下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。<br /><br />1.Bloom filter<br />适用范围:可以用来实现数据字典,进
2010-11-16 18:43:00
354
转载 C++框架如何正确理解
C++框架种类繁多,如何才能正确理解C++框架,如何选择正确的框架应用于我们的程序中呢?在这里就为大家详细介绍一下相关内容。C++编程语言中,有很多比较重要的内容值得我们去深入研究。这些基础内容的理解不但能帮助我们掌握C++,而且还能对其他语言的学习或多或少的有些帮助。在这里就先为大家介绍其中一个比较基础的C++框架的相关概念。框架,在英文中叫做Framework。应用程序框架就叫做Application Framework。现在是framework满天飞的时候,你没有听过框架,但是你肯定听过.net
2010-10-11 11:15:00
784
转载 文本分类、聚类的开源项目
http://mallet.cs.umass.edu/index.php/Similar_softwareFrom MalletThere are numerous other software packages relevant to machine learning and text that in various ways are related to MALLET:NLTK
2010-08-27 11:41:00
1343
原创 本地phpmyadmin远程连接服务器端MySQL
方法一:打开config.inc.php(Linux下在/etc/phpmyadmin/下)1,更改 $cfg['Servers'][$i]['auth_type'] = 'http'; 为 $cfg['Servers'][$i]['auth_type'] = 'cookie';2,更改 if (empty($dbserver)) $dbserver = 'lo
2010-07-27 17:41:00
2074
原创 MySQL中文乱码
在mysql的服务器配置文件my.cnf(linux下在/etc/mysql/下)修改:1,在[client]下添加default-character-set=utf82,在[mysqld]下添加default-character-set=utf8character_set_server = utf8 查看:进入mysql,输入:show variable
2010-07-21 11:23:00
344
原创 MySQL常用命令
1,链接服务器为了连接服务器,当调用mysql 时,通常需要提供一个MySQL用户名并且很可能需要一个密码。如果服务器运行在登录服务器之外的其它机器上,还需要指定主机名。知道正确的参数后,可以按照以下方式进行连接:shell>mysql -h host -u user -pEnter password: ********host和user分别代表MySQL服务器运行的主机名和MyS
2010-07-20 14:15:00
482
原创 工作中用到的一些框架、工具、概念等
记录一下,侍机学习LAMP:Linux + Apache + MySQL + PHPSSH:Struts + Spring + HibernateMaven:Hadoop:Hudson:Tuscany:Scallop:MVC:XPlanner:
2010-05-17 11:02:00
415
转载 监督,非监督和强化学习
最近很多人在问监督学习、非监督学习和强化学习等等之间的关系,我简单地写一点。机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有从例子中学习、类比学习、分析学习等,但一般来说,现在研究得最多、被认为最有用的是从例子中学习(learning fromexamples)。对从例子中学习,又有很多分类方法,例如从学习的主动性方面,可以分为主动学习(activelea
2010-05-14 14:23:00
1824
转载 差别怎么这么大呐?
同样是泡妞,领导叫失足, 富人叫包养, 百姓叫嫖娼 同样是出国,领导叫考察, 富人叫旅游, 百姓叫偷渡 同样是干活,领导叫带头, 富人叫创业, 百姓叫打工 同样是说话,领导叫精神, 富人叫名言, 百姓叫废话 同样是要求,领导叫意见, 富人叫提案, 百姓叫牢骚 同样是炒股,领导叫主力, 富人叫游资, 百姓叫散户 原帖:http://shenyinru.blshe.com/
2009-12-28 17:10:00
461
转载 死了都要try
死了都要try!不catch我不痛快!程序毁灭throw还在!把每天,当作是程序来更改,一改一天,累到泪水都掉下来,不理会,老板是好还是坏,只要有工资,来还贷.改,不是需求做的太坏,那是sb客户想要什么,自己都不明白.忍受现在,自己一生的还不完的贷,很多模块,不能完成,我还得改.死了都要try!不catch我不痛快!
2009-11-13 09:12:00
384
转载 猪窝的经济理论
猪通过勤劳致富有5元钱存在老鼠开的钱庄里。猪打算拿这5元钱建一个小窝,大概要花2元买地,花3元搭窝。王八是搞工程的,他想在猪身上挣更多的钱,于是找来当投资顾问的狐狸想办法,狐狸说:这好办。于是找来管地盘的狼,开钱庄的老鼠一起来商议,结果王八从老鼠那里借来200
2009-06-29 15:30:00
571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人