- 博客(54)
- 资源 (4)
- 收藏
- 关注
原创 JAVA中替换一些特殊字符的方法
replace和replaceAll的区别: replace 采用的是字符串原有的意思来替换,而 replaceAll 则是按照正则表达式的字符串来替换,正则表达式中有 15 个元字符,是有特殊意义的,使用时需要转义,这 15 个字符分别是: ( [ { / ^ - $ ¦ } ] ) ? * + ....
2012-11-27 10:38:57
508
原创 wordpress博客文章转载抄袭追踪——wordpress博客插件
在你的网站或者博客文章内容中添加此标识图案,即警告未经许可的剽窃者,你可以很轻松的通过CopyCheck服务检测到他们的转载抄袭,维护你的文字著作权。添加版权申明图案方法:copycheck提供WordPress站点支持插件,直接点击插件下载安装即可,具体步骤如下: 将下载后的压缩包解压,得到一个名为copycheck文件夹(包括一个.php文件及一个.txt文件),将该文...
2012-01-28 13:04:14
331
原创 知网论文检测修改高招
本文揭示了知网反抄袭检测系统的算法,如何判定论文是抄袭,以及如何修改来通过的秘籍。发出来造福大家。现在高校对于硕士和博士论文采用的检测系统,是由知网开发的。但该软件的具体算法,判定标准,以前一直不清楚,先在了然。首先分享一个论文检测系统:www.copycheck.com.cn 1、对格式的要求 知网学位论文检测为整篇上传,格式对检测结果可能会造成影响,需要将最终交...
2011-12-13 22:19:27
277
原创 论文检测躲避高招
近来很多学校出台了一个令人不爽的规定啊,所有硕士论文必须通过知网反抄袭检测系统后才能答辩.怨声载道,民不聊生,现在有的学校在本科生中也会随机抽一些同学进行查重,弄得大家心里不爽。看到大家一个个郁闷的样子。特将自己珍藏的反查重对策加以总结,以解各位同学烦恼喔首先分享一个专业论文检测系统:www.copycheck.com.cn上策:外文文献翻译法 实施方法:查阅研究领域外文文献,...
2011-12-13 22:01:08
210
原创 想学习数据挖掘,但是应该从哪里获取教程?
正统教材: 主要是下面这两本(第一本好些,虽然第二本好像国内用的比较多): Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.前沿教材: ...
2011-11-05 17:51:25
194
原创 Linux crontab 命令格式与详细例子
基本格式 :* * * * * command分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令crontab文件的一些例子:30 21 * * * /usr/local...
2011-10-24 18:49:42
118
原创 linux下网络流量监控统计
最近在做虚拟化迁入评估,其中很重要的一项就是流量的问题。现在部署一个工具和脚本用来统计服务器的网络流量。 linux下监控流量的工具有很多,比如ifstat、iftop等。 个人还是喜欢ifstat,因为它统计起来比较容易。 先安装ifstat。 还是老步骤,先下载ifstat-1.1.tar.gz,然...
2011-10-24 16:35:05
154
原创 linux常用的监控工具 <转>
1、CACTI 工具,主要用于监控服务器网卡流量,系统硬件状态等,主要是对SNMP协议熟悉,而且会PERL与XML时候这个工具非常强大。默认就只有监控网卡流量、和一些硬盘空间的模板。还要配合RRDTOOL一起使用。2、NAGIOS 工具,主要用于监控服务器系统各个进程的的状态以及使用内存CPU的情况,不需要自己写脚本,就能够运行。但是不能够监控网卡流量。如果出现情况可以给我发邮件,很及...
2011-10-24 16:33:51
176
原创 使用mysql的mysqldump实现自动备份
使用mysql数据库的mysqldump工具,可以实现数据库的备份功能,如果在linux系统中配置好crontabs,就可以实现自动备份!#!/bin/bash##配置原数据库连接信息,即正在使用需要备份数据库机器。SOURCE_USER=-uroot##如果就是在本机ip,即SOURCE_HOST=-h127.0.0.1SOURCE_HOST=-h10.10.10.12S...
2011-09-28 18:43:23
102
原创 系统运维需求
1) 200台服务器平台硬件和软件维护经验,熟悉WINDOWS和LINUX系统和网络管理以及各种服务(Ftp、Squid、Dns、Apache、Tomcat、Jboss、Samba、Nfs、Sendmail、Postfix、Rsync、Sersync、Helix、Openvpn、Iptables等)以及linux操作系统的优化和各项服务(apache、nginx、tomcat,resin...
2011-06-13 13:35:42
752
原创 libeven、memcached、libmemcache安装
前端时间玩了一下memcached,由于工作关系得过一段时间在玩它。哎,工作就是这样,老变! libeven memcached的使用需要libeven的支持,我们得先装上libeven。 官方网站:http://www.monkey.org/~provos/libevent/ 下载地址:http://www.monkey.org/~provos/libeven...
2011-06-11 21:01:54
146
原创 Redis千万级的数据量的性能测试
从图中可以猜测到还会有Redis 2.2.1 的测试,相同的测试环境,1K的数据量,使用ServiceStack.Redis客户端进行如下测试: 1) Set操作 2) Get操作 3) Del操作 每一套测试分别使用三个配置进行测试: 1) 绿色线条的是开启Dump方式的持久化,5分钟持久化一次 2) 蓝色线条是开启AOF方式的持久化,每秒写入磁盘一次...
2011-06-11 20:15:27
1240
原创 基于向量空间模型的文本聚类算法
转自:http://edu.codepub.com/2009/0910/15270.php 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的...
2011-06-11 13:23:05
231
原创 Software Tools for NLP
Software ArchiveCMU Artificial Intelligence RepositoryResources Available Through CRLSIL Computing ResourcesLinguistics Tools at the University of Vaasa in FinlandLeeds University, Na...
2011-06-10 23:59:53
337
原创 NLP Tools(自然语言处理工具)
MaxentMature Java package for training and using maximum entropy models.OpenNLP CCG LibraryA collection of natural language processing components and tools which provide suppo...
2011-06-10 23:58:46
797
原创 自然语言处理及计算语言学相关术语中英对译表
machine dictionary 机器词典 machine language 机器语言 machine learning 机器学习 machine translation 机器翻译 machine-readable dictionary (MRD) 机读辞典 Macrolinguistics 宏观语言学 Markov chart 马可夫图 Mathematical Linguistics ...
2011-06-10 23:43:08
1299
HttpClient超时区别
HttpClient 4 设置超时httpclient 超时有时httpclient的时候,需要等待N长时间,可能此时你决定放弃或者重试。实现上非常简单 添加一个参数即可httpClient.getParams().setIntParameter("http.socket.timeout",3000);这里的超时单位是毫秒。 这里的http.socket.timeout...
2010-02-24 00:27:48
115
原创 javamail发送邮件的简单实例
转自:http://www.blogjava.net/wangfun/archive/2009/04/15/265748.htmljavamail发送邮件确实是一个比较麻烦的问题。为了以后使用方便,自己写了段代码,打成jar包,以方便以后使用。呵呵以下三段代码是我的全部代码,朋友们如果想用,直接复制即可。第一个类:MailSenderInfo.javapackage com.ut...
2010-02-23 09:31:33
117
原创 Nutch SegmentMerger 说明
This tool takes several segments and merges their data together. Only the latest versions of data is retained. Optionally, you can apply current URLFilters to remove prohibited URL-s. ...
2010-01-15 15:44:45
114
原创 Nutch SegmentMerger 说明
This tool takes several segments and merges their data together. Only the latest versions of data is retained. Optionally, you can apply current URLFilters to remove prohibited URL-s. ...
2010-01-15 15:43:42
90
免费抄袭检测的网站汇总
英文抄袭检测的网站: http://www.mydropbox.com/ 中文的反抄袭检测系统:http://www.copycheck.com.cn
2009-12-14 23:56:01
644
原创 HTTP缓存ETAG和Last-Modified
基础知识 1) 什么是”Last-Modified”? 在浏览器第一次请求某一个URL时,服务器端的返回状态会是200,内容是你请求的资源,同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间,格式类似这样: Last-Modified: Fri, 12 May 2006 18:53:33 GMT ...
2009-12-08 17:36:22
319
原创 Java多线程sleep(),join(),interrupt(),wait(),notify()
关于Java多线程知识可以看看《Thinking in Java 》中的多线程部分和《Java网络编程》中第5章多线程的部分以下是参考<<Java多线程模式>>的 1. sleep() & interrupt() 线程A正在使用sleep()暂停着: Thread.sleep(100000); 如果要取消他的等待状态,可以在正在执行的...
2009-12-08 15:47:52
86
原创 Div+CSS规则整理
一、 善用css缩写规则 /*注意上、右、下、左的书写顺序*/1. 关于边距(4边):1px 2px 3px 4px (上、右、下、左)1px 2px 3px (省略的左等于右)1px 2px (省略的上等于
2009-11-20 11:03:00
685
拷克在线反抄袭检测系统
网络文章论文反抄袭工具http://www.copycheck.com.cn对文章或论文中的句子进行检索,分析文章或论文中每个句子的原创性,若非原创,给出抄袭的可能程度。Copycheck不但可用来分析文章抄袭的程度,而且可用来检测自己的博客文章被别人复制、被别人疯狂传播的程度,帮你保护你博客的版权。请将文章或论文粘贴到下面的输入框中,再单击开始对比按钮,即开始检测文中句子...
2009-10-26 00:13:39
299
原创 数据挖掘研究内容和本质(转)
随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和 数理统计。因此,KDD大会程序委员会曾经由这三个学科的权威人物同时来任主席。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技 术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结...
2009-10-23 18:10:30
552
转载 Swarm——分布式计算的新方法
P2P匿名代理软件Freenet的作者Ian Clarke正在开发一个新的开源项目Swarm。 Swarm是一个Web应用程序开发框架,它允许程序分布在多台计算机,从某种程度上让程序对程序员完全透明。Swarm将会观察程序的执行,并计算出如何在计算机之间分配计算量以达到效率最大化。Swarm采用LGPL许可证,用Scala 2.8语言实现。 目前还处于早
2009-10-12 13:09:00
582
转载 ICEpdf 3.1发布,开源的Java PDF引擎
ICEpdf 3.1发布了!ICEpdf 是一种开源,轻量级的pdf 引擎,用于展示/查看PDF文档,转换和抽取PDF文档的内容,还可以集成到Java桌面应用程序或Web服务器中使用。 ICEpdf的API采用100%纯Java编写,快速高效,使用简单。 ICEpdf的优势:与java客户端无缝整合,通过配置完全控制功能和用户接口;易于开发和使用
2009-10-12 13:07:00
950
转载 快速获得网站反向连接的一个方法
去年下半年的时候,我曾写过一篇文章叫作,《英文网站优化,为你的博客获得免费的半原创文章》。其实,这些半原创文章是通过Article Marketing Automation 系统自动获得的。当时,Article Marketing Automation这个服务刚刚开始。为了鼓励更多的博客加入他们的Article Marketing网络系统,他们搞了一个看谁可以加入最多博客的竞赛。那篇文
2009-09-24 17:08:00
807
1
转载 Using Hadoop IPC/RPC for distributed applications
在分布式应用程序中使用Hadoop IPC/RPC原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications本文来自于:http://gpcuster.cnblogs.com 译文:关于Hadoop IPC我们一起来了解Hadoop IPC,这
2009-09-24 16:19:00
504
网络原创文章版权维护的辅助好工具copycheck抄袭检测软件
在自己博客、网站中发布的原创文章很有可能会被其他人抄袭,甚至一点修改都没有。如果你对版权非常敏感,或是担心大量的被转载文章会影响到自己的利益。你就得花些时间检查一下网站中的原创文章是否被别人抄袭啦。在搜索引擎中搜索文章中独有的短语就能检查是否有侵权现象。如果其他人非法复制了您的原创内容,应该能在搜索结果中看到。不过这个方法非常消耗时间,如果网站中有大量的文章就更麻烦了。呵呵,还好这...
2009-09-17 17:55:11
621
转载 29款英文SEO优化工具介绍
本文囊括29款SEO工具,4大种类。包括SEO工具,关键词工具,内容管理工具,图片搜索工具,PR查询工具,分析工具,社交媒体工具,在线采集工具,外链建设工具,统计工具,竞争性研究工具,点击付费广告(PPC)工具等相关工具和专业优化工具。如果你在寻找提升SEO效果工具,你找对了地方。 一、搜索引擎优化(SEO)助手 1、谷歌快讯 可以用谷歌快讯监视竞争对手和某些搜索字词。下
2009-09-16 10:54:00
2511
转载 用动态规划算法对最大子串问题的java实现
http://www.blogjava.net/heack/archive/2009/09/15/295080.html 最大字串问题描述大概就是给定2个字符串,找出他们两个共有的最长字符串。比如一个是"tabcfg"另外一个"abckj"那么最大子串就是"abc".动态规划算法最重要的就是分解问题,找出递归。说一下我的思考思路,首先拿到2个字符串,如何找到最长子串呢?1.假设他们
2009-09-15 15:21:00
840
转载 java URLEncoder 中特殊处理
URLEncoder类:用于HTML的form中数据编码的类。这个类包含将字符串转换为application/x-www-form-urlencoded MIME 格式的静态方法.如果想了解HTML的编码细则,请参考HTML规范。编码规则如下:字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不被编码,维持原值,空格" "被转换为加
2009-08-31 15:39:00
1091
转载 教你文本聚类
摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。思路:计算两篇文档的相
2009-08-23 18:32:00
1345
转载 聚类基本数学模型
聚类方法是一类用途非常广泛的算法,聚类包含很多各式各样的算法。所有这些算法都有它的基本数学模型。本文就简单介绍一下聚类的基本数学模型。了解了基本数学模型就了解了聚类最本质的原理。无论是学习算法还是自己开发新的算法,学习基本数学模型都是很有帮助的。本文的目的一方面是介绍数学模型,另一方面也算是自己学习内容的一个记录吧。 假设X={x1,x2,…,xn}是待分析的对象全
2009-08-23 18:31:00
1168
转载 基于关联分析的数据挖掘在CRM中的应用
一、引言 CRM(客户关系管理)是指企业为了获取最大经济效益,运用现代科学技术对公司与客户之间的关系进行有效管理的新模式.它包括市场调查、产品销售、客户服务和管理决策等一系列商业流程。随着客户数量的大量积累,客户信息的日益复杂,仅限于营销流程的管理已很难满足企业进一步发展的需要。另外,激烈竞争的市场环境,迫使企业必须立足于客户的个性需求,提供相应的产品和服务,而客户的个性特
2009-08-21 17:15:00
1551
转载 Mutual Information 互信息的应用
MI使用如下公式计算某个特征项t和类别c之间的相关性。其中,A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数。N为所有文档数。如果t和c不相关,则I(t,c)值为0。如果有m个类,于是对于每个t
2009-08-20 16:40:00
2186
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人