- 博客(86)
- 资源 (1)
- 收藏
- 关注
原创 使用svm机器学习模型对抓取异常进行挖掘
自从去年11月17号来到了百度,工作一直是太忙了,这一年时间内,都很少打开自己的博客,更没有再发表文章了。恰逢十一国庆,可以休息下,趁机把用svm机器学习模型对抓取异常进行预测的编码步骤给总结下。一、准确数据输入的数据格式为: 结果 站点 某个值 url
2011-10-01 23:23:59
1463
1
原创 bash学习总结(一)
<br /><br />1、变量名可变的用法:<br />var='name'<br />let "`echo $var`="jams"<br />echo $name<br /> <br />2、命令组:<br />(a=hello; echo $a)<br />将会作为子shell来运行,括号中的变量,对于脚本剩下的部分不可用。<br />这一点与{}代码块是不同的,所以函数里的变量都是全局。<br /> <br />3、管道“|”,会起一个子shell,里面的变量对父进程是不可用的,这一点特别需要注意
2010-11-29 21:09:00
815
原创 给自己一点激励
一个书生在翻越一座山时,遭遇了一个拦路抢劫的山匪。书生立即逃跑,但山匪穷追不舍,走投无路时,书生钻进了一个山洞里,山匪也追进山洞里。 在洞的深处,书生未能逃过山匪的追逐,黑暗中,他被山匪逮住了,遭到一顿毒打,身上的所有钱财,包括一把准备为夜间照明用的火把,都被山匪掳去了,幸好山匪并没有要他的命。之后,两个人各自寻找着洞的出口,这山洞极深极黑,且洞中有洞,纵横交错。 山匪将抢来的火把点燃,他能看清脚下的石块,能看清周围的石壁,因而他不会碰壁,不会被石块绊倒,但是,他走来走去
2010-10-20 14:00:00
622
原创 大话设计模式学习--面向对象设计的原则
1、单一职责原则:就一个类而言,应该只有一个引起它变化的原因。如果一个类承担的职责过多,就等于把这些职责耦合在一起,一个职责的变化可能会削弱或者抑制这个类完成其他职责的能力。这种耦合会导致脆弱的设计,当变化发生时,设计会遭受意想不到的破坏。软件设计真正要做的很多内容,就是发现职责并把那些职责相互分离。如果你能够想到多于一个的动机去改变一个类,那么这个类就具有多于一个的职责,就应该考虑职责分离。
2010-10-20 13:54:00
498
原创 大话设计模式学习--策略模式(Strategy)
Strategy模式也叫策略模式,是由GoF提出的23种软件设计模式的一种。Strategy模式是行为模式之一,它对一系列的算法加以封装,为所有算法定义一个抽象的算法接口,并通过继承该抽象算法接口对所有的算法加以封装和实现,具体的算法选择交由客户端决定(策略)。Strategy模式主要用来平滑地处理算法的切换。本文介绍设计模式中的(Strategy)模式的概念,用法,以及实际应用中怎么样使用Strategy模式进行开发。Strategy模式的概念与应用场景概要:- Strategy模式定义一个算法族,并把每
2010-10-20 13:24:00
583
原创 大话设计模式学习--简单工厂模式
场景:实现两个数的加减乘除运算父类:实现了操作运算的公有属性和方法,包括,两个操作数,获得结果方法。get_result()必须是抽像方法,这样,子类赋给父类对象时,仍是调用子类的方法。 4 class Operator 5 { 6 public: 7 Operator() 8 : A(0.0), B(0.0) 9 { 10 } 11 12 Operator(double a, double b)
2010-10-19 16:50:00
674
原创 百度面试总结
百度的面试基本上就告一段落了,被蹂躏了两次,结果基本上也是可想而知了。其实那里考的,基本上只有两种,一种是算法题,特别是大数据量的存储与查询等。另一种就是智力题。这两类题,主要还是考每个人的思维能力。如果以后还有机会,只需要在这两方面抓紧。
2010-09-26 16:50:00
551
原创 gdb学习
<br />http://fanqiang.chinaunix.net/program/other/2006-07-14/4834.shtml
2010-09-26 11:18:00
399
原创 gcc学习
1、由代码生成可执行文件包含四个步骤:预处理,编译,汇编,连接2、全局选项:-x language指定编程语言-c编译或汇编源文件,但不做连接操作,编译器输出对应于源文件的目标文件,即“.o”文件。-S编译后停止,不进行汇编,对每个输入的非汇编文件,输出汇编语言文件,即“.s“文件。-E预处理后停止,不进行编译,预处理后的代码送往标准输出。-o指定输出文件名。-pipe在编译过程的不同阶段间使用管道,而不是用临时文件进行通信。3、语言选项:-ansi支持符合ansi标准的C程序,关闭GNU C中某些不兼容的
2010-09-26 09:53:00
481
原创 kmp子串查找算法
<br /><br /> 1 #include <stdio.h><br /> 2 <br /> 3 #define MAXSTRLEN 255<br /> 4 typedef unsigned char SString[MAXSTRLEN + 1];<br /> 5 <br /> 6 int Index_KMP(SString S, SString T, int pos, int next[])<br /> 7 {<br /> 8 int i, j;<br /> 9 wh
2010-09-20 23:39:00
893
原创 搜索面试相关准备
1、数据结构,尤其是字符串处理,匹配,查找,排序,hash表| 1 2、那本书。|1.5 3、c++ prime | 24、bash | 35、stl | 44、进程通信,线程同步,线程安全等。4 5、网上找一些算法试题。4 6、编程珠叽 4
2010-09-16 22:18:00
799
原创 搜索相关职位面试
<br />1、搜索引擎主要核心技术:<br />中英文分词语言处理;<br />排序算法;<br />网络爬虫;<br />查询/存储技术<br /> <br />2、主要涉及的具体技术:<br />http网络协议;<br />多线程技术;<br />socket通信;<br />高效服务端程序开发;<br /> <br />3、爬虫:<br /><br />网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。<br />网络爬虫使用多线程技术,让爬虫具备
2010-09-08 11:57:00
672
原创 rabbitmq
http://www.infoq.com/cn/articles/AMQP-RabbitMQ�http://blog.pluskid.org/?p=376�
2010-07-12 00:00:00
1188
原创 Python正则表达式操作指南
<br />http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97#.E8.B4.AA.E5.A9.AA_vs_.E4.B8.8D.E8.B4.AA.E5.A9.AA
2010-06-18 11:23:00
897
原创 django
<br /> http://www.djangobook.com/en/2.0/ django入门/使用说明 <br /> http://djangobook.py3k.cn/2.0/ 中文翻译版本
2010-06-10 17:30:00
566
原创 防止内存泄露 Linux下用Valgrind做检查
http://www.chineselinuxuniversity.net/articles/6815.shtml
2010-05-26 10:05:00
494
原创 ubuntu下webkit编译
1、安装一些依赖库:sudo apt-get install libX11-dev libXext-dev libXtst-devsudo apt-get install libqt4-dev gperf bison flex libicu-dev libphonon-dev libsqlite3-dev 2、设置好QT的环境变量 3、WebKit/WebKitToo
2010-05-18 23:42:00
1203
转载 Linux下的段错误产生的原因及调试方法
简而言之,产生段错误就是访问了错误的内存段,一般是你没有权限,或者根本就不存在对应的物理内存,尤其常见的是访问0地址.一般来说,段错误就是指访问的内存超出了系统所给这个程序的内存空间,通常这个值是由gdtr来保存的,他是一个48位的寄存器,其中的32位是保存由它指向的gdt表,后13位保存相应于gdt的下标,最后3位包括了程序是否在内存中以及程序的在cpu中的运行级别,指向的gdt是由以64位为一
2010-05-11 13:18:00
452
转载 Linux下C/C++编译器gcc使用简介
1.gcc包含的c/c++编译器gcc,cc与c++,g++gcc和cc是一样的,c++和g++是一样的。一般c程序就用gcc编译,c++程序就用g++编译。2.gcc的基本用法gcc test.c:如果没有指定输出的文件,默认将编译出一个名为a.out的程序gcc test.c -o test:-o参数用来指定生成目标程序的名字,这样将编译出一个名为test的程序。3.为什么会出现undefin
2010-05-10 22:16:00
541
原创 QT容器
QT不仅提供了序列化的容器,比如QVector, QLinkedList, QList, 还提供了联合型的容器,如QMap, QHash. 同时,QT也提供了能用在任意容器上的通用算法,如qSort()算法能把序列化的容器排序。而且,QT上也能使用STL。 1、QVector类似于数组,但能被动态分配大小。注意,在vector中插入元素代价可能比较大。初始化:QVect
2010-05-08 13:05:00
1448
原创 安装qt, pyqt
1、安装qttar zxf qt-everywhere-opensource-src-4.6.2.tar.gzcd qt-everywhere-opensource-src-4.6.2到上层目录,mkdir obj462; cd obj462 --> 使用 obj462 目录目的是保存编译过程中间文件,使这些文件和 QT源码目录分离。需要一些X11的库: sudo apt-get
2010-05-03 16:55:00
942
原创 webkit学习
1、http://developer.apple.com/mac/library/documentation/Cocoa/Conceptual/DisplayWebContent/Tasks/ResourceLoading.htmlwebkit面向对象C编程向导 2、http://search.forkus.com/l/webkit.htm这里有不少的关于WEBKIT的文章
2010-04-29 23:22:00
662
原创 http://www.soidc.net/articles/1215484977397/20080408/1215945405319_1.html
http://www.soidc.net/articles/1215484977397/20080408/1215945405319_1.html
2010-04-19 19:16:00
1888
原创 准备买基金了
工行基金:http://www.icbc.com.cn/icbc/%E7%BD%91%E4%B8%8A%E5%9F%BA%E9%87%91/ 几个基金: http://finance.sina.com.cn/fund/quotes/of160119/bc.shtmlhttp://finance.sina.com.cn/fund/quotes/of020001/b
2010-04-09 14:34:00
850
原创 vi操作
:5,10 co 105 Copy lines 5-10 to the line after 105 :5,20 m $ Move lines 5-20 to end of file :7,300 d Delete lines 7-300 (to buffer)参考:http://staff.washington.edu/rells
2010-04-05 10:25:00
580
原创 smbclient访问共享
1、得到远程主机的共享列表: smbclient -L $host -U $user显示 Domain=[WORKGROUP] OS=[Unix] Server=[Samba 3.2.3] Sharename Type Comment --------- ---- ------- shares Disk
2010-04-01 10:58:00
1064
原创 nc传文件
1、nc 传单个文件server接收端:$ nc -l -p 8880 > a.htmlclient发送端:$ nc 10.10.10.10 8880 2、nc 传文件夹 server接收端:$ nc -l -p $PORT | tar -xf -client发送端:$ tar -cf - $DIRECTORY | nc $HOST $PORT
2010-04-01 10:43:00
1686
原创 ubuntu9.10安装wine
1、sudo add-apt-repository ppa:ubuntu-wine/ppa2、sudo apt-get update3、sudo apt-get upgrade4、sudo apt-get install wine wine-gecko
2010-03-23 09:25:00
392
原创 curl摸拟浏览器运行WebGoat
这个WebGoat有一些个性化的操作,所以记录在此步骤: 1、 curl -u "guest:guest" -D cookie.jar "http://localhost/WebGoat/attack" -v登录进入WebGoat,并保存COOKIE 2、 curl -u "guest:guest" -b cookie.jar -d "start=Start+WebGoa
2010-03-15 10:11:00
707
原创 php处理xpath
1 2 $doc = new DOMDocument(1.0, utf-8); 3 $doc->load(./info.xml); 4 $xpath = new DOMXPath($doc); 5 $name = $_GET[name]; 6 $password = $_GET[password]; 7 $query = "/add
2010-03-06 17:59:00
1441
原创 魔术符号
什么是魔术引号当打开时,所有的 (单引号),"(双引号),/(反斜线)和 NULL 字符都会被自动加上一个反斜线进行转义。这和 addslashes() 作用完全相同。一共有三个魔术引号指令:magic_quotes_gpc 影响到 HTTP 请求数据(GET,POST 和 COOKIE)。不能在运行时改变。在 PHP 中默认值为 on。 参见 get_magic_quot
2010-02-23 17:49:00
1185
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人