- 博客(52)
- 资源 (14)
- 收藏
- 关注
转载 社交网络数据挖掘
随着Facebook的上市,社交网络再次成为人们关注的焦点。与传统的论坛、博客相比,社交网络是虚拟世界与现实世界的桥梁,在互联网上将现实生活中人与人之间的关系建立起来。从社交网络的分类来看,Facebook、Twitter、LinkedIn分别代表三种不同的社交网络。Facebook是基于朋友之间强关系的社交网络,有助于朋友之间关系的维系和改善;Twitter是基于单向关注的弱关系的社交网络,这样
2013-05-06 10:33:05
4697
原创 信息检索、自然语言处理 近两年相关会议论文
cikm2011http://www.cikm2011.org/papersckim2012http://www.cikm2012.org/accepted_papers.phpecmlpkdd2011http://www.ecmlpkdd2011.org/acceptedPapers.phpecmlpkdd2012http://www.ecml
2013-01-24 17:10:26
1249
原创 linux共享函数库的创建与使用
共享库(动态库)的.so 文件类似于.dll 文件。共享函数库在可执行程序启动的时候加载,所有程序重新运行时都可自动加载共享函数库中的函数。实验代码如下:/***test_a.cpp***/#include #include "test.h" void TestA(){ printf("TestA func\n");}/***test.h***/#ifnd
2012-11-21 20:26:17
1332
转载 ICMP API实现ping
// Microsoft ICMP API// 在Build之前,必须加入ws2_32.lib库文件#include #include #include #include typedef struct tagIPINFO{ u_char Ttl; // Time To Live u_char Tos; // Type Of Service u_char
2012-10-22 10:34:45
1644
原创 文本抽取函数 比正则表达式好用
#include#include#include#include#include#include#include#includeusing namespace std; #define MAXN 500#define _match(a,b) ((a)==(b))#define N_NAME 200#define N_FIX 500#define buffer
2012-08-22 09:38:16
684
原创 tcp/ip协议
TCP状态转换图TCP链接中的分组交换主动关闭的一方在发送最后一个 ack 后就会进入 TIME_WAIT 状态 停留2MSL(max segment lifetime)时间这个是TCP/IP必不可少的,也就是“解决”不了的。也就是TCP/IP设计者本来是这么设计的主要有两个原因1。实现终止TCP全双工链接的可靠性2。防止上一次连接中的包,迷路后重新出现,影响新
2012-02-28 19:06:01
675
转载 sha1加密算法
#include #include #include typedef unsigned __int64 UINT64; #define NULL 0 // The standard SHA1 needs the input string to fit into a block // This
2011-11-11 09:48:29
789
原创 Heritrix安装与运行
一、Heritrix直接安装1、下载 heritrix-1.14.4.zip、heritrix-1.14.4-src.zip,将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录。如:F:\Heritrix2、然后,将 F:\Heritrix 目录中的
2011-08-23 19:59:46
992
原创 ubuntu批量重命名工具purrr
照相机照的照片,网络爬虫采集的网页经常会出现同名的情况,下面介绍一个批量重命名的工具purrr。# 安装:Ubuntu 软件中心中就有,搜索 purrr 就可安装。或者sudo apt-get install purrr这是一个图形界面的软件,安装完成以后,可以在“应用程序”-“
2011-07-08 14:05:11
1116
原创 ftp报文 命令
ABOR 放弃传输*ACCT 某些系统将帐号和用户与文件系统相关联*ALLO 为即将传送的文件分配空间。后面携带的参数来确定字节数*APPE 将文件附加到已经存在的文件后面CDUP 在远程系统上将当前目录切换到上级父目录CWD 改变远程系统的工作目录DELE 删除远程系统的文件HELP 读取服务器的帮助信息,如:支持的命令的列表LIST 在一个新建立的数据连接上发送
2011-06-28 10:50:00
4058
原创 linux 源码安装gcc编译器
首先在配置gcc的过程中会出现错误:gcc configure: error: Building GCC requires GMP 4.2+, MPFR 2.3.1+ and MPC 0.8.0+说明要安装gcc需要GMP、MPFR、MPC这三个库,可从ftp://gcc.gnu.org/pub/gcc/infrastructure/下载相应的压缩包。由于MPFR依赖GMP,而MPC依赖GMP和MPFR,所以要先安装GMP,其次MPFR,最后才是MPC。这里三个库我用的版本分别是gmp4.3.2,mpfr2
2011-05-04 16:01:00
982
原创 程序设计竞赛(acm)常用数据结构
一、栈stack 包含头文件:stack定义: stack name; //int型的用法:出栈: name.pop(); //出栈入栈: name.push(T); //T为入栈元素栈顶: name.top() //返回栈首判空: name.empty(); //若为空返回true长度: name.size(); //栈的大小二、队列queue 包含
2011-04-22 20:27:00
1372
原创 关于qx项目验收
<br />项目验收一拖再拖,终于定下3月2号,可是人算不如天算,老师出差北京、另外一个项目负责人起身去武汉,没法子只能我一个人去单位做验收报告。历史性的六点多就起床,想在车上再睡一会儿可全无睡意。报告完自己的ppt,自我感觉还不错,对于验收小组的提问也可以给出满意的答复,无奈老师不在让他们感觉不重视,只交给2个学生负责,还走了一个。“历史上没有验收不通过的,昨天真是个奇迹,让我自己说,我说以后不用,就无条件通过验收”,这是那边项目负责人说的。责任有时候就是一种负担,有问题的时候你还必须承担,开发的程序不可
2011-03-03 10:08:00
1057
原创 nothing's gonna change my love for you
<br />if i had to live my life without you near me<br />如果我这一生中没有你在身边<br />the days would all be empty<br />所有的白天将会变的空虚<br />the nights would seem so long<br />夜晚将变得漫长<br />with you i see forever oh so clearly<br />和你在一起我能把永远看得那么清楚<br />i tried to be in lo
2011-02-21 21:46:00
759
原创 cURL简单使用、libcurl编程
一、curl简介curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持的协议有:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传, 上载文件断点续传, http代理服务器管道( proxy tunneling), 甚至它还支
2011-02-21 21:42:00
5063
1
原创 linux samba详细配置及使用
<br /><br />一、安装samba(一般的源里面都有的,不用新加源)<br />sudo apt-get install samba<br />sudo apt-get install smbfs<br />或者到添加删除那直接添加<br /><br />二、备份smb.conf配置文件: <br />sudo cp /etc/samba/smb.conf /etc/samba/smb.conf_backup <br />三、编辑配置文档<br />sudo gedit /etc/samba/s
2011-01-14 19:31:00
892
原创 刚装完ubuntu的常用设置
更新源gksu gedit /etc/apt/sources.listhttp://wiki.ubuntu.org.cn/Qref/Sourcesudo apt-get update 终端设置sudo apt-get install nautilus-open-terminalsudo apt-get install nautilus-gksu 音乐播放器rhythmbox的桌面歌词插件sudo apt-get install python-gconf python-gobject gnome-osd py
2010-12-31 10:17:00
707
原创 I'll find my way
<br />人们总抱着到了大学就可以轻松了的观点的时候,他们那知阿?<br />大一大二,重复着高中的生活,除了少了些许升学考试的压力,其他的一切还如旧:每天几乎八节的课,晚上必不可少的自习,集体的生活反而让正常的睡觉时间定在了十二点,然后上课就时常对着老师点头。<br />大三,分专业了,课少了,接了项目,没课就得在实验室呆着,当课程和项目的压力同时到来的时候,就只能以“人每天只要睡4个小时就够了”来安慰自己。<br />大四,只剩下4个学分了却依然忙碌,不知道从什么时候开始就没有了寒暑假的概
2010-11-25 21:43:00
665
原创 I lay my love on you
<br />Just a smile and the rain is gone仅仅微笑就让雨天放晴<br />Can hardly believe it 真的不敢相信<br />There's an angel standing next to me天使就在我身边<br />Reaching for my heart住在我心里<br />Just a smile and there's no way back一个微笑令我无法折回<br />Can hardly believe it 真的不敢相信<br />
2010-09-08 17:19:00
965
原创 larbin中运用数据库mysql
<br /> <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } --><br />larbin这个程序只负责采集原始数据,并没有对数据进行处理,不过可以自己建立数据库,方便下一步的处理。对mysql数据库的连接和相关已经之前的文章中有所介绍了,这里不再累赘,只是说明编译的时候需要注意的地方。<br />在需要数据库操作的程序代码中加入mysql.h头文件。<br />编译makefile的
2010-08-17 10:30:00
1253
原创 用最简单的方法解决Too many open files错误
在Linux下面部署应用的时候,有时候会遇上Too many open files的问题,其实Linux是有文件句柄限制的,而且Linux默认不是很高,一般都是1024。用ulimit -a命令查看目前系统的所有限制,ulimit -n查看open files的限制fzu@fzu-desktop:~$ ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedsched
2010-08-11 10:41:00
2549
原创 小函数集合
/*字符串翻转函数*/char* Reverse(char* aStr){ for (int i=0,j=strlen(aStr)-1;i { aStr[i]^=aStr[j]; aStr[j]^=aStr[i]; aStr[i]^=aStr[j]; } return aStr;}/*整型转换为字符串(windows下可以直接调用,linux下没有该函数,自己实现)*/void _itoa(int i,
2010-07-19 16:04:00
627
原创 larbin程序重启方案
<br /><br />问题说明:larbin程序爬取某个网站,在爬取完所有连接后,如果有定义爬取完后exit(),则程序会终止进程;如果没有定义,larbin程序只会会输出一些统计信息,其他貌似都没工作了,对于新增的连接也不会爬取。<br />鉴于以上问题,larbin程序需要重启。一下介绍两个方案,代码就不贴了。<br /> <br /> <br />方案一:<br />主要思想:<br />判断队列( URLsDisk->getLength(),URLsDiskWait->getLength() )是
2010-07-16 17:28:00
749
原创 中文编码之间的转换
//主要思想:先将一种编码用MultiByteToWideChar函数变为Unicode编码,再用WideCharToMultiByte函数变为另一种编码。/*********************************MultiByteToWideChar一、函数功能:该函数映射一个字符串到一个unicode字符串。 二、函数原型:int MultiByteToWide
2010-06-27 20:43:00
1578
原创 larbin主要代码说明
larbin流程图:初始化各种静态变量和队列,各种模块初始化,url放入urlsDiskStartThread()启动web servermaincron();查看连接是否超时,动态更新状态信息、绘制状态图等waitBandwidth等待带宽程序刚启动input()接受数据,装载urlsequencer();对url队列进行爬取cangeturl()按优先级装载定量url到namedSiteLisrputGenericUrl()dns检查,放入dnssitefetchDns();解析DNSsites中的dn
2010-06-21 15:13:00
1674
原创 I Swear (我发誓)
<br />I swear ! 我发誓!<br />By the moon & the stars in the skies.当着天上的星星月亮<br />And I swear ! 我发誓! <br />Like the shadow that's by your side.如同守候你的背影<br /><br />I see the questions in your eyes.我看见你眼中闪烁着疑问<br />I know what's weighing on your mind.也
2010-06-18 21:06:00
546
原创 cry on my shoulder(在我肩上哭泣)
If the hero never comes to you如果你的真命天子仍未来到If you need someone you"re feeling blue如果你情绪低落需要有人陪伴If you"re away from love and you"re alone如果你离爱遥远,孑然一人If you call your friends and nobody"s hom
2010-05-13 21:43:00
558
原创 larbin中sequencer()及其相关函数阅读
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->函数调用关系:sequencer()---canGetUrl()------get()------tryget()------putPriorityUrlWait (ur
2010-05-13 21:32:00
835
原创 larbin中input.cc(input函数)源码阅读
// Larbin// Sebastien Ailleret// 03-02-00 -> 23-11-01#include #include using namespace std;#include #include #include #include "options.h"#include "types.h"#include "global.h"#
2010-05-06 15:16:00
1712
2
原创 ubuntu搭建论坛
1、安装lamp(写过相关文章,这里就不详细介绍了),在数据库中建立discuz 数据库2、安装Zend框架sudo apt-get install zend-framework3、下载Discuz安装包wget http://download2.comsenz.com/Discuz/7.0.0/Discuz_7.0.0_FULL_SC_GBK.zip4、给var中的www文件加7
2010-04-26 15:24:00
1115
1
转载 the sound of silence歌词
Hello darkness, my old friend 你好 黑暗 我的老朋友 Ive come to talk with you again 我又来和你交谈 Because a vision softly creeping 因为有一种幻觉正向悄悄地向我袭来 Left its seeds while I was sleeping 在我熟睡的时候留下了它的种子
2010-04-08 14:44:00
1182
原创 larbin的详细配置
配置英文原版说明:http://larbin.sourceforge.net/custom-eng.html#larbin.conf larbin.conf################################################ Who are you ?# mail of the one who launched larbin (YOUR
2010-03-24 17:27:00
2874
原创 larbin编译、运行与配置
larbin是一种高效的搜索引擎爬虫工具,larbin官方地址:http://larbin.sourceforge.net/index-eng.html,我下的是larbin-2.6.3.tar.gz版本。一、编译命令行sudo apt-get install [softname]安装gcc、g++、make、xutils-dev(1)打开./adns/internal.h文件
2010-03-15 23:27:00
3668
原创 socket 编程常用函数
一 SOCKET socket( int af, int type, int protocol ); 应用程序调用socket函数来创建一个能够进行网络通信的套接字。第一个参数指定应用程序使用的通信协议的协议族,对于TCP/IP协议族,该参数置
2010-03-01 17:45:00
710
转载 ubuntu安装IE6.0
下文将介绍如何安装一个依赖wine运行的带有Flash9的IE6。当然,如果你需要的话也可以安装IE 5.5/5.01。* 请注意: 这里安装的Flash 9将只供IE使用。* 先安装Cabextract,在终端中运行:sudo apt-get install wine cabextract* 接下来在终端中运行:wget http://www.tatanka.
2010-02-02 15:09:00
780
转载 linux压缩解压文件
document.body.oncopy = function() { if (window.clipboardData) { set
2010-02-01 17:12:00
665
原创 linux crontab计划任务的使用
名称 : crontab 使用权限 : root用户和crontab文件的所有者 语法 : crontab [-e [UserName]|-l [UserName]|-r [UserName]|-v [UserName]|File ]重启:sudo /etc/init.d/cron restart 说明 : crontab 是用来让使用者在固定时间或固
2010-01-14 09:04:00
618
原创 C语言连接mysql数据库,读取mysql内容
//linux下编译g++ $(mysql_config --cflags) ***.cpp $(mysql_config --libs)/*mysql数据库中表的内容mysql> select * from maindb;+------------------+---------+-------------+---------+----------+------------
2009-11-18 11:19:00
2560
原创 linux ubuntu下ftp服务器安装、配置与使用
http://hi.baidu.com/vsgp/blog/item/0daae64589a3852fcffca3e7.html1、安装vsftpd终端输入:sudo apt-get install vsftpd安装了之后会在/home/下建立一个ftp目录。这时候你可以试着访问下ftp://IP地址。应该可以看到一个空白内容的ftp空间。启用:sudo /etc/init.
2009-10-20 10:46:00
1328
原创 ubuntu下NFS安装与配置(实现两台linux之间的文件夹挂载与共享访问)
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->NFS安装与配置NFS全称为“网络文件系统”(NetworkFile System)本机ip地址:219.229.128.44 用“机器一”表示
2009-10-13 10:32:00
2465
1
visual foxpro图书管理系统(vfp)
2012-12-27
算法艺术与信息学竞赛 刘汝佳、黄亮
2009-08-17
严蔚敏《数据结构》课件
2009-08-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人