- 博客(46)
- 资源 (19)
- 收藏
- 关注
转载 数据挖掘领域顶级会议期刊及其分析
JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tkd
2011-06-09 12:55:00
28895
转载 UCI数据集和源代码&数据挖掘的数据集资源
<br />《UCI数据集和源代码》<br />UCI数据集是一个常用的标准测试数据集,下载地址在<br />http://www.ics.uci.edu/~mlearn/MLRepository.html<br />我的主页上也有整理好的一些UCI数据集(arff格式):<br />http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip<br />在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)
2011-03-27 21:15:00
9667
转载 聚类分析中几种算法的比较
<br /> 将数据库中的对象进行聚类是聚类分析的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大,为了找到效率高、通用性强的聚类方法人们从不同角度提出了近百种聚类方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等,这些算法适用于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类方法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题及用户的聚类算法。
2011-03-27 19:40:00
39545
转载 Acrobat9.0激活方法
<br /> 在安装软件之前,先要打开 C:/windows/system32/drivers/etc/hosts 文件,往其中添加 127.0.0.1 activate.adobe.com 一行,这是防止到官方网站验证。<br /> hosts 是个隐藏文件,如果你找不到,则需要先修改“文件夹选项”中的相关设定。打开“文件夹选项”,切换到“查看”选项卡,选中“隐藏文件和文件夹”下面的“显示所有文件和文件夹”,然后单击“确定”。<br />也有人说要往 hosts 中添加更多屏蔽网址,如
2011-02-02 19:28:00
4822
转载 一些有用的电驴网址
<br />0、http://www.emule-project.net/<br />1、http://www.simplecd.org/<br />2. http://qvocd.com/<br />3、http://www.ied2k.com/<br />4、http://www.thshare.net/<br />5、http://www.eastgame.net <br />eastgame.net <br />6、http://www.chnp2p.com/<br />7、http://www.h
2011-01-27 12:13:00
7803
转载 python与java在语法上的几个不同点
<br />python的基本语法,和java的做个比较:<br /><br />一、数<br /> python只有4种类型的数:整数,长整数,浮点数和java中没有的复数;<br /> java则有char,short,byte,int,long,float,double类型;<br /><br />二、字符串<br /> python没有表示单个字符的char类型,可以用单引号,双引号来表示一个常量字符串,也可以用三引号('''或者“”“)来表示一个多行的字符串;<br />
2010-10-29 23:45:00
6275
转载 Hadoop示例程序WordCount详解
<br />package com.felix; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;
2010-10-29 13:23:00
2099
转载 Hadoop中的数据库访问
Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.mapred.lib.db中,主要用来与现有的数据库系统进行交互,包括MySQL、PostgreSQL、Oracle等几个数据库系
2010-10-29 13:18:00
4141
原创 VC实现无标题栏对话框的拖动
<br /> <br />1.在消息映射中手动添加:<br />afx_msg UINT OnNcHitTest(CPoint pt);<br />2.在.cpp文件中添加:<br />BEGIN_MESSAGE_MAP(CMyDialog, CDialog)<br />//{{AFX_MSG_MAP(CMyDialog)<br />ON_WM_SYSCOMMAND()<br />ON_BN_CLICKED(ID_APP_ABOUT,OnAbout)<br />ON_WM_PAINT()<br />ON_W
2010-10-20 23:02:00
2039
转载 c++&&python实现Hadoop Streaming的partitioner和模块化
<br />Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程<br /><br />工作流程 : <br /><br />InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles<br /><br />理解 : <br />1 输入文件,可以是指定远程文件系统内的文件夹下的 *<br />2 通过集群自己分解到各个PC上,每个mapper是一个可执行文件,相
2010-10-14 11:27:00
3097
原创 Ubuntu下使用Dr.com上网
<br /> 首先,当然要下载个linux下的drcom源代码,在这里可以下载最新版本的drcom。<br />http://sourceforge.net/projects/drcom-client/files/drcom-for-linux-2.6/<br /> <br /> 然后把下载的drcom-1.*.*.tar.gz放在桌面,右键解压到此处。<br /> 进入刚解压的目录,执行<br />make<br />sudo make install<br /> PS:在这里
2010-10-09 15:53:00
2619
转载 在Ubuntu9.10环境下的Hadoop分布式模式的部署
Linux下的Hadoop--分布式模式的部署 选用软件版本:1. jdk 1.6.0.102. hadoop-0.19.11. 准备Host环境和配置ssh主节点IP是192.168.1.247,子节点1是192.168.1.36,修改两个节点的/etc/hosts文件:# /etc/hosts (for master AND slave)192.168.1.247 master192.168.1.36 slave分别在两台机器上添加用户hadoop①在master上:groupadd -g 2000
2010-10-09 13:59:00
2367
转载 用Python来写MapReduce的实际应用程序
<br />用Python来写分布式的程序。这样速度快。便于调试,更有实际意义。MapReduce适合于对文本文件的处理及数据挖掘用:<br /> 在每台机器上:<br />su - hadoop<br />wget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2<br />tar jxvf Python-3.0.1.tar.bz2<br />cd Python-3.0.1<br />./configure --prefix=/h
2010-10-09 13:56:00
8493
原创 Hadoop学习资料、博客及网站汇总
Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175 关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.javaeye.com/blog/418846 JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.javaeye.com/ 豆瓣hadoop小组http://www.douban.com/group/156966/ 推荐Clou
2010-10-09 13:29:00
7634
原创 Hadoop学习资料及网站汇总
Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.iteye.com/blog/607175关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.iteye.com/blog/418846JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.iteye.c...
2010-10-06 20:27:31
324
Cygwin国内镜像
之前用互联网安装Cygwin时用的都是台湾或是日本的源,平均速度在30k/s左右,今天偶然发现了一个163的源,速度达到了100k/s~200k/s,真是安装首选啊,下面介绍安装方法:在安装程序到选择站点时,将http://mirrors.163.com/cygwin/填入,点击Add按钮,即可。...
2010-10-06 15:07:15
276
转载 计算机核心期刊排名及投稿信息
<br /><br />1 计算机学报 北京 中国计算机学会等<br />2 软件学报 北京 中国科学院软件研究所<br />3 计算机研究与发展 北京 中国科学院计算技术研究所等<br />4 自动化学报 北京 中国科学院等<br />5 计算机科学 重庆 国家科技部西南信息中心<br />6 控制理论与应用 广州 中国科学院系统科学研究所等<br />7 计算机辅助设计与图形学学报 北
2010-10-01 22:30:00
3953
原创 Hadoop备忘
Hadoop简介Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进
2010-09-26 19:30:00
1936
原创 Ubuntu10.04 硬盘安装方法
Ubuntu10.04硬盘安装法: 提取 ISO 里 casper 文件夹中的 “vmlinuz” 和 “initrd.lz” 文件到某分区下的某文件夹中,如 /dev/sda2 的 ubuntu 文件夹中,同时把 Desktop 版本的 ISO 更名为 ubuntu.iso 并放到该文件夹中,即 ubuntu 文件夹中有 “ubuntu.iso”、“vmlinuz” 和 “initrd.
2010-05-01 00:47:00
2785
转载 Linux下的进程控制块(PCB)
进程在操作系统中都有一个户口,用于表示这个进程。这个户口操作系统被称为PCB(进程控制块),在linux中具体实现是 task_struct数据结构,它记录了一下几个类型的信息:1.状态信息,例如这个进程处于可执行状态,休眠,挂起等。2.性质,由于unix有很多变种,进程有自己独特的性质。3.资源,资源的链接比如内存,还有资源的限制和权限等。4.组织,例如按照家族关系建立起
2010-03-11 12:17:00
11902
转载 数据挖掘中易犯的10个错误
按照Elder博士的总结,这10大易犯错误包括:0. 缺乏数据(Lack Data)1. 太关注训练(Focus on Training)2. 只依赖一项技术(Rely on One Technique)3. 提错了问题(Ask the Wrong Question)4. 只靠数据来说话(Listen (only) to the Data)5. 使用了未
2010-01-09 16:06:00
2282
原创 string.h函数的实现
string.h函数的实现string.h<!-- document.body.oncopy = function() { if (window.clipboardData) {
2010-01-08 09:45:00
711
转载 解决Linux中Too many open files问题
1、相关命令:ulimit –a //查看当前设置ulimit –n 2048 //即设成2048,按实际需要设置2、用户环境参数文件配置:在/etc/profile中加入如下内容:if [ $SHELL = "/bin/ksh" ]; then ulimit -p 16384 ulimit -n 65
2010-01-05 00:30:00
1030
转载 10折交叉验证
10-fold cross-validation 就是十折交叉验证,用来测试精度。是常用的精度测试方法.将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。
2009-12-28 12:16:00
16074
转载 试论贝叶斯分类、决策树分类分类挖掘算法的优势与劣势,以及解决维度效应的策略
0 引言数据分类 是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类 是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类 规则组成,可以用来对未来的数据进行分类 和预测。分类 技术解决问题的关键是构造分类 器 。 一.数据分类 数据分类 一般是两个步骤的过程: 第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)。通过分析由
2009-12-28 12:14:00
3005
转载 针对TCP协议的攻击与检测、预防方法
Land 攻击通过发送源地址和目的地址相同,源端口和目的端口相同的ICMP echo 报文或TCP syn 请求报文,可以导致主机不断地向自己发送报文,最终导致系统崩溃。只要检查报文的源地址和目的地址是否相等、源端口和目的端口是否相等,就可以判断出是否为Land攻击。Syn Flooding利用TCP协议“三次握手”机制而发动的攻击。当Server(B)收到Client(A)的syn请
2009-12-28 12:13:00
7612
转载 基于数据挖掘的IDS介绍
0引言 随着信息技术的迅速发展,计算机及网络技术给人们在信息利用与资源共享方面带来了极大的方便,与此同时,也成了单位内部心怀不满的人员、黑客、竞争对手等人攻击的目标。计算机网络安全已引起了人们的广泛关注。传统的安全保护类技术采用认证、授权、访问控制和加密等机制不能阻止利用计算机软硬件系统的缺陷闯入未授权计算机系统的行为,对授权用户滥用计算机及其资源的情况也无能为力。而防火墙技术不能
2009-12-28 12:09:00
1736
转载 基于数据挖掘技术入侵检测系统研究
随着网络在现代社会中发挥愈来愈重要的作用,利用计算机网络犯罪也呈现出明显的上升趋势。如何建立安全而又健壮的网络系统,保证重要信息的安全性,已经成为研究的焦点。以往采用的方式多是防火墙的策略,它可以防止利用协议漏洞、源路由、地址仿冒等多种攻击手段,并提供安全的数据通道,但是它对于应用层的后门,内部用户的越权操作等导致的攻击或窃取,破坏信息却无能为力。另外,由于防火墙的位置处在网络中的
2009-12-28 12:03:00
1570
转载 Weka使用入门
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器
2009-12-27 20:15:00
1067
原创 DARPA Intrusion Detection Evaluation Data Set
DARPA1999年评测数据包括覆盖了Probe,DoS,R2L,U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集.同时,作为研究领域共同认可及广泛使用的基准评测数据集,DARPA 1999年评测数据为新提出的入侵检测算法和技术与其他算法之间的比较提供了可能.DARPA1999评测数据给出了5周的模拟数据,其中前两周是提供给参于评测者的训练数据:第1,3周
2009-12-27 15:05:00
4908
1
转载 数据挖掘中分类算法小结
数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。
2009-12-27 14:26:00
1253
转载 Linux下Libpcap源码分析和包过滤机制
libpcap是unix/linux平台下的网络数据包捕获函数包,大多数网络监控软件都以它为基础。Libpcap可以在绝大多数类unix平台下工作,本文分析了libpcap在linux 下的源代码实现,其中重点是linux的底层包捕获机制和过滤器设置方式,同时也简要的讨论了libpcap使用的包过滤机制 BPF。 网络监控 绝大多数的现代操作系统都提供了对底层网络数据包捕获的机
2009-11-23 10:44:00
3757
原创 HEX文件格式
Intel HEX文件是由一行行符合Intel HEX文件格式的文本所构成的ASCII文本文件。在IntelHEX文件中,每一行包含一个HEX记录。这些记录由对应机器语言码和/或常量数据的十六进制编码数字组成。IntelHEX文件通常用于传输将被存于ROM或者EPROM中的程序和数据。大多数EPROM编程器或模拟器使用Intel HEX文件。记录格式 Intel
2009-10-12 15:50:00
577
原创 Ubuntu个性化攻略
Step1:安装Flash插件 最好是去官网上下载install_flash_player_10_linux.deb,直接安装即可。Adobe Flash Player官方网址 http://get.adobe.com/flashplayer/ Step2:安装解压缩工具,主要针对RAR sudo apt-get install rar unrar p7zip p7z
2009-10-06 16:39:00
779
原创 Linux / Unix Command: getpwent
Linux / Unix Command: getpwent NAMEgetpwent, setpwent, endpwent - get password file entry SYNOPSIS#include pwd.h>#include sys/type
2009-10-04 03:06:00
600
原创 取石子问题
取石子问题有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。两个人轮流从堆中取物体若干,规定最后取光物体者取胜。这是我国民间很古老的一个游戏,别看这游戏极其简单,却蕴含着深刻的数学原理。下面我们来分析一下要如何才能够取胜。 (一)巴什博奕(Bash Game):只有一堆n个物品,两个人轮流从这堆
2009-09-14 21:57:00
484
转载 UDP内网穿透
首先先介绍一些基本概念: NAT(Network Address Translators),网络地址转换:网络地址转换是在IP地址日益缺乏的情况下产生的,它的主要目的就是为了能够地址重用。NAT分为两大类,基本的NAT和NAPT(Network Address/Port Translator)。 最开始NAT是运行在路由器上的一个功能模块。 最先提出的是基本的NAT,它的
2008-11-04 20:15:00
3090
2
转载 VC实用小技巧
一、打开CD-ROM mciSendString("Set cdAudio door open wait",NULL,0,NULL); 二、关闭CD_ROM mciSendString("Set cdAudio door closed wait",NULL,0,NULL); 三、关闭计算机 OSVERSIONINFO OsVersionInfo; //包含操作系统版本信息的数据结构 OsVersi
2008-09-06 01:54:00
892
转载 VC实现邮件发送
typedef struct mail_tag{char mail_addr[255];char mail_from[255];char mail_to[255];char username[20];char password[20];char subject[255];char content[1024];} MAIL;int sendmail (MAIL *pmail){ char *p
2008-08-28 10:02:00
5389
Zep——开源的X86架构的内核
2010-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人