- 博客(56)
- 资源 (4)
- 收藏
- 关注
原创 《周易》相关资源
视频:1.腾讯视频微讲堂之鲁洪生讲《周易》http://v.qq.com/cover/g/gwjb2892vsvf73a.html讲的很好,内容很系统,由浅入深,循序渐进。一些想法:1.希望能够结合自然语言处理和《周易》算卦,做一个能够与人交流沟通,帮人测凶吉,教人趋吉避凶方法的聊天机器人。
2014-02-24 11:04:02
1362
原创 deep learning在NLP上的应用相对不理想的一种解释
总的来说,深度学习在NLP上取得的进展没有在语音图像上那么令人影响深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势?Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较
2014-01-28 15:06:48
1179
原创 关于deep learning的一点启发
(引自:http://blog.youkuaiyun.com/zouxy09/article/details/8775360)机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器学习虽然发展了几十年,但还是存在很多没有良好解决的问题:从开始的通过传感器(例如CMOS)来获
2014-01-28 11:57:16
1011
转载 Java 并发核心编程
Java 并发核心编程内容涉及:1、关于java并发2、概念3、保护共享数据4、并发集合类5线程6、线程协作及其他 1、关于java并发自从java创建以来就已经支持并发的理念,如线程和锁。这篇指南主要是为帮助java多线程开发人员理解并发的核心概念以及如何应用这些理念。本文的主题是关于具有java语言风格的Threa
2014-01-09 15:36:35
801
原创 中文分词概述
一、问题概述自己在总结。。。二、算法概述http://www.youmedia.cn/blog/upload/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E7%AE%97%E6%B3%95%E6%A6%82%E8%BF%B0.pdf
2014-01-05 23:08:25
913
转载 排难解纷.浅析孙禄堂先生独步中国武学巅峰的原因
孙禄堂先生独步中国武学巅峰,取得了他人无法企及的武学功效。那么他是如何取得武学的至高功效,在他生长阅历经过中有什么玄妙吗?我以为严重有五大成分:历史逻辑、文明土壤、家学渊源、从学机遇以及私人超拔的天赋和竭力。首先,排难解纷。为什么说孙禄堂取得卓绝的武学功效具有一种历史逻辑?由于中国武学发展有其内在的演化逻辑,这个内在的演化逻辑又是在中国历史大环境的演化及影响下酿成的。其历史
2013-12-06 23:26:54
2751
转载 孙禄堂先生对武学的五大贡献之一创立拳与道合的武学思想体系
孙禄堂先生(1860一1933年)是孙氏太极拳的创始人,研究孙先生的武学文化,对我们现代人继承、发展武术文化有非常重要意义。孙禄堂先生是武术文化的开拓者,同时也是武术最高境界的实践家。孙禄堂先生在武学方面有五大贡献,本文主要叙述五大贡献之一创立拳与道合的武学思想体系。 孙禄堂先生对武学的五大贡献是: 1、创立了拳与道合的武学思想体系。 2、创建了以中和为原
2013-12-06 22:59:49
2622
转载 基于向量空间模型的文本聚类算法
1 文本聚类研究现状Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知
2013-12-05 21:29:04
14297
转载 Quartz调度器堵塞原理和解决
Quartz 调度器以多线程的方式执行调度任务JobDetail,缺省线程池大小为10,也就是说若调度器中已有10个Job在工作(线程没有结束),那么即使有JobDetail到了被触发的时间,新的JobDetail不会被执行,也就是说阻塞的条件是,调度器中正在运行的JobDetail数量达到了设定值10。 举一个具体的例子:a. 单一Job配置:JobA 触
2013-12-02 17:54:32
15836
转载 聚类算法初探(七)聚类分析的效果评测
目前聚类算法种类众多,使得人们在实际应用中难于选择,因此,对聚类分析的结果进行评价是关键的。假如有一个专门针对聚类效果的有效评价机制,那么,我们就可以对众多算法进行比较分析,从而选择最合适的聚类分析算法。 本文摘自中国科学院计算技术研究所周昭涛的硕士论文《文本聚类分析效果评价及文本表示研究》的第三章,算是一则读书笔记吧,希望对大家有点帮助。
2013-12-02 11:10:01
4035
转载 了解和实现 Lucene 分词器
说明:本文所涉及的 Lucene 类型来源于 Apache Lucene 4.3.0 版本。Lucene 分词器是通过继承 Tokenizer 类型来实现的,Tokenizer 类型的继承结构如下。图中与分词器实现相关的类型一共有三个:AttributeSource、TokenStream 和 Tokenizer,这三个类型在我们实现的分词器
2013-11-29 11:43:52
4161
转载 基于Java容器类的线程安全编程
Collection ├List 接口│├LinkedList 链表│├ArrayList 顺序结构动态数组类│└Vector 向量│ └Stack 栈└Set Map ├Hashtable ├HashMap └WeakHashMap List接口 List (接口
2013-11-29 11:24:15
855
转载 Mahout学习路线图
前言Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hadoo
2013-11-18 22:09:04
3710
转载 Mahout实现的机器学习算法
在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Ne
2013-11-18 22:07:59
2902
转载 lucence小记
Lucene 优化Lucene 会为每一次addDocument(document) 是在索引库目录下新增一个文件".cfs"后缀的文件。 这意味我们的程序将便对越来越多的文件(但是默认情况下,最多也不会超过10个,当文件达到10个的时候,lucene 会将它们合并为一个大的文件)。意味着 IO 流的打开和关闭也将越来越多。这对效率的影响是比较大的。
2013-11-18 22:01:23
1086
转载 中文分词
一,中文分词概述,请参考http://www.ppc110.com/search-engine.pdf二,mmseg,一个中文分词实现,转自:http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/MMSEG 中文分词算法NOV 1ST, 2009 | COMMENTS由
2013-10-30 16:02:37
1190
原创 让linux Sort 按照 ASCII 顺序排序
1.#cat test.tmp101.16.109.61 121230012020887483101.16.109.6 130129103337518683 101.16.109.62 121127113043951234101.16.109.6 221103013246294953 101.16.109.66 130307204231337635101.16.109.
2013-06-17 13:56:09
2082
转载 如何提高自制力?自制力差怎么办?
转载自:http://www.psycofe.com/read/readDetail_20630.htm心理引言:自制力就是控制自己的能力,是指能够完全自觉的、有意识的控制自己的情绪,支配自己行动的能力。自制力差的人通常都很难抵御各种诱惑,对自己的人生产生不好的影响。本文教你如何提高自制力,抵御各种诱惑。 ——心灵咖啡网什么是自制力?从字面解释,
2013-05-30 15:55:10
2465
1
转载 我,一个写代码的
转载自: http://www.blogjava.net/cenwenchu/archive/2009/03/11/258950.html 写blog已经快两年了,起初仅仅是为了自己“备个案”,结果慢慢演变成为了“分享成瘾”。前几天一个朋友给我的blog留言,谈到希望在新年里能够看到的不仅仅是我对技术的分享,更希望能够看到对于技术学习、职业发展的规划。因此想到了写一点什么分享一下
2013-04-18 16:48:16
745
转载 mysql-Innodb事务隔离级别-repeatable read详解
转载自:http://blog.youkuaiyun.com/alifel/article/details/6548075一、事务隔离级别ANSI/ISO SQL标准定义了4中事务隔离级别:未提交读(read uncommitted),提交读(read committed),重复读(repeatable read),串行读(serializable)。对于不同的事务,采
2013-04-15 10:47:39
39403
3
转载 mysql中update和delete时sql_safe_updates问题
转载自:http://www.2cto.com/database/201209/153017.htmlMySQL删除更新数据时报1175错误的问题 今天删除mysql数据库中的一条记录的时候,一直不能删除,提示错误信息如下:[html] Error Code: 1175. You are using safe update mode and yo
2013-04-12 10:16:31
16489
转载 无法使用索引的select语句
转载地址:http://blog.youkuaiyun.com/civilman/article/details/6557459---无法使用索引的select语句1.对索引列使用了函数,如:select * from tb where max(id)=1002.对索引列使用了'%xx',如:select * from tb where id like '%1'需要注意的不
2013-04-12 10:10:53
1872
原创 mysql, python,MySQLdb等的字符编码问题
1.在python中用MySQLdb库连接mysql数据库时db = MySQLdb.connect(host="localhost", user="root", passwd="user", db="test", charset="utf8")其中(charset=“utf8”)应该和mysql中的字符编码相同2.在python中如果要打印出utf8的中文字符,应该是
2013-03-25 17:54:14
1133
原创 将execl中的数据导入到mysql
1.将execl表格另存为.csv格式2.通过mysql的load data命令将.csv中的数据导入mysql 2.1连接数据库:mysql -h localhost -u root -p --local-infile=1 test 2.2导入数据:load data local infile '~/tmp.csv' into table tmp fields termin
2013-03-18 13:21:19
692
原创 机器学习的几个重要问题
本文是我看《机器学习哪些事》的一些总结和感想。如果我现在就是一个能够学习的机器的话,那我现在进行的就是机器学习中的“归纳”。另:本人刚开始接触机器学习这一领域,欢迎交流沟通,表述如有不当之处,恳求指出。*我的总结:1.机器学习实现为一个学习器,学习器通过样例训练集的训练,学到假设空间里一个最优的算法(比如一个最优的分类器集合中的一个分类器)。其中,样例训练集可以理解为学习器要学
2012-12-02 21:18:54
8551
1
转载 机器学习(Machine Learning)大家
原文:http://blog.tianya.cn/blogger/post_read.asp?BlogID=272727&PostID=15814815机器学习(Machine Learning)大家~zz 闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我
2012-12-01 22:59:04
1760
原创 机器学习相关
《机器学习哪些事》推荐:http://homes.cs.washington.edu/~pedrod/顶级国际会议视频报告:http://videolectures.net/jul09_hinton_deeplearn/百度文库机器学习 视频教学全集http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705
2012-12-01 13:23:27
772
原创 July之题目--“微软亚洲研究院”
题目出处:http://blog.youkuaiyun.com/v_JULY_v/article/details/6313257题目:假设有一颗二叉树,已知这棵树的节点上不均匀的分布了若干石头,石头数跟这棵二叉树的节点数相同,石头只可以在子节点和父节点之间进行搬运,每次只能搬运一颗石头。请问如何以最少的步骤将石头搬运均匀,使得每个节点上的石头上刚好为1。我的思路:1.程序所需数据结构:
2012-11-30 08:56:43
1291
转载 linux内核版本、系统发行版本及系统位数
查看centos内核的版本:1)[root@localhost ~]# cat /proc/versionLinux version 2.6.18-194.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)) #1 SMP Fri Apr 2 14:58:14 EDT
2012-11-29 17:52:17
702
原创 centos下procps源码包获取方法
1.网上获取src.rpm源码包wget http://vault.centos.org/6.2/os/Source/SPackages/procps-3.2.8-21.el6.src.rpm2.转为tar压缩包rpm2cpio procps-3.2.8-21.el6.src.rpm | cpio -id *.tar.gz3.解压缩tar zxvf pr
2012-11-29 16:32:24
1841
转载 Iozone集群测试
1) Iozone的集群测试缺省使用rsh,而目前rsh基本上已经被ssh所取代,因此需要配置ssh来作为缺省的rsh,实际上很简单,就是将环境变量rsh或RSH设置为ssh,即export RSH=ssh;export rsh=ssh。在tcsh下需要使用setenv命令设置2) 配置SSH无密码登录,请参照“设置SSH服务器只采用密钥认证”,简单一点就是分成两步, A) ssh-
2012-11-26 10:17:45
6200
2
转载 Linux I/O调度
【整理】Linux I/O调度一) I/O调度程序的总结 1) 当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成. 2) 每个块设备都有它自己的队列. 3) I/O调度程序负责维护这些队列的顺序,以更有效地利用介质.I/O调度程序将无序的I/O操作变为有序的I/O操作. 4) 内核必须首先确定队列中一共有多少个请
2012-11-21 12:04:40
662
转载 UNIX常用命令个人总结
UNIX常用命令个人总结一、VI编辑器常用操作1)、进入输入模式vi切换到输入模式的正规方法重要度指令功能说明***a在当前光标之后输入A在当前行之末输入***
2012-10-17 16:43:10
1005
转载 SIGBUS和SIGSEGV
一、导致SIGSEGV 1.试图对只读映射区域进行写操作 。 2.访问的内存已经被释放,也就是已经不存在或者越界。3.官方说法是:SIGSEGV --- Segment Fault. The possible cases of your encountering this error are: (1)buffer overflow --- usually caus
2012-10-17 10:25:52
3100
原创 如何判断一个端口是否被占用
1.调用socket创建一个套接字描述符。2.调用setsockopt关闭套接字描述符的SOL_SOCKET级别中的SO_REUSEADDR。3.调用bind,判断特定的端口是否能够绑定,根据返回结果可以判断出端口是否被占用。注明:上述步骤2中,打开SO_REUSEADDR的作用是:即是之前将特定端口用作本地端口的连接依然存在,也同样允许再次将该端口绑定到新的套接字中。所以
2012-10-16 14:28:31
6779
原创 我的一些算法学习原则
做算法设计时必备的基础知识:熟悉一个算法的平均时空复杂度,即是算法的效率。熟悉一个算法的最佳和最坏时空复杂度。同类算法的相互比较。更加深入的学习算法:掌握一个算法的证明(包括证明思路),甚至于算法设计者在设计该算法时的思路,即是算法证明过程的来源。其实,如果不仅能够证明一个算法,而且能够弄明白一个算法证明过程的来源,那就能深刻的记忆该算法了。几个需要常问
2012-10-13 20:56:42
576
原创 关于”云计算“
云计算本质上是一个软件概念,云计算的目标就是通过各种各样的软件技术,整合、挖掘、管理和高效利用两极化发展的单机整机和多机整机的硬件系统资源,也即是对计算力的更高追求,或者说是在软件层面上对计算力两极化发展的延续。其中,计算力的发展呈现两极化,即分别是向处理器和计算机整机系统的两极化发展。处理器的发展主要体现在摩尔定律和多核多处理器;计算机整机系统的发展主要体现在超级计算机计算上(HPC
2012-10-10 10:47:30
1123
转载 编程的首要原则是什么?
半年前,JoelOnSoftware和CodingHorror合搞的stackoverflow.com刚上线不久,我兴冲冲地跑过去扔了一个问题:你们认为编程的首要原则是什么?作为我的学习原则的一个实践:8. 学习一项知识,必须问自己三个重要问题:1. 它的本质是什么。2. 它的第一原则是什么。3. 它的知识结构是怎样的。5个月过去了,这个问题到现在还有人回复
2012-09-28 16:36:58
595
原创 valgrind 检查zefs内存泄漏
valgrind 检查zefs内存泄漏:valgrind --log-file=log0.valgrind -v --leak-check=full --track-origins=yes --show-reachable=yes zefs --debug -f /etc/zecloudd/vols/vol0/vol0-fuse.vol /mnt/zefs/vol0
2012-09-28 11:09:47
570
原创 磁盘和网络状态查看与检测
linux下的一些命令:command 1:iostat -k -x -d sda1 1 4command 2:sar -n DEV 1 4command 3:ethtool 详细使用可查看man手册
2012-09-27 15:34:14
584
IBM_VMware
2011-04-15
C/C++语言库(包括各种C++模板)
2011-03-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人