- 博客(48)
- 资源 (7)
- 收藏
- 关注
原创 二值分类模型的评价指标
本文简单、扼要的介绍了二值分类模型的评价指标:Precision, Recall, F-Score, ROC and AUC.
2016-11-30 08:57:37
5273
1
原创 Several Machine Learning Problems
Several machine learning problems: classification, regression, ranking, clustering, recommendation, cross validation
2016-11-17 04:37:26
595
原创 工作3周年小记
时间荏苒,入职那天的情景还历历在目,却不经意的成为了组里的老员工。一直渴望着静好的岁月,不曾想,过去的岁月这般忙碌,匆匆,似乎没有留下太多彩色的记忆。蓦然回首,做了很多项目,看到各种同事的来去,也经历了组里的盛衰,内心没有波澜,只是遗憾没有对自己更好一些。3年来我做过文档分析,相关性,也做过query分析;训练过模型,挖掘过数据,写过各种规则,也写过各种代码。也有2-3个让自己得意,让别人眼前
2015-03-30 17:56:28
1089
原创 搜索引擎-信息检索实践—page rank
网页入链数:指向这个网页的链接数。链接倾向于指向受欢迎的网页。网页链接举例:bing主页, “bing主页”即锚文本,可以利用anchor text 挖掘个人/机构主页。页面的page rank,即浏览该页面的概率。举例:网页A,B,C;A链向B及C;B链向C;C链向A。页面C的page rank,即浏览页面C的概率,依赖于A和B的page rank。假设点
2013-08-02 01:07:04
1777
原创 搜索引擎-信息检索实践—网络爬虫
网络爬虫有两个任务:下载页面和发现URL。从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。网络爬虫发现了没有遇到过的URL,将其加入请求队列。网络爬虫使用礼貌策略(politeness policy):网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。管理员可以在网络服务器上保存robo
2013-07-31 20:50:55
3049
原创 URL- 含义及组成
URL (uniform resource locator) : 互联网的每个网页都有自己唯一的统一资源定位器,由3部分组成:通信协议,主机名,资源名。HTTP(hypertext transfer protocol):网页存储在网络服务器,使用超文本传输协议,和客户端软件交换信息。主机名:保存该网页的网络服务器的计算机名。资源名:该URL指向这台计算机的一个页面。举例:
2013-07-31 18:32:43
2139
原创 女程序员的反思
鉴于大家对此的热情,我增添些具体的开发感受,希望能帮到和我有一样困惑的姐妹们,也希望各路IT大牛前来指导。工作已有8个多月,不间断的大小项目共5个。一直觉得很疲惫,除了本应该烦累的工作外,自己性格上的各种不适应加重了疲惫感。可能是前一个项目的透支,在上线完之后依旧在寻求释放,没有斗志,也没有懈怠的负罪感。请假在家,窝在温暖的被子里,回首、反思。我是理科及工科出身,认真上进,追求完美
2012-12-17 14:36:08
15047
22
原创 C# Project 问题及解决
Bug1:Unhandled Exception:System.IO.FileNotFoundException: Could not load file or assembly 'MLGMisc,Version=7.4.0.0, Culture=neutral, PublicKeyToken=9d6a406f61a3f983' or one ofits dependencies. T
2012-10-15 00:08:03
2704
原创 python初学笔记(2)
文件处理:读文件:f1 = file("D:\\document_classification\\sports_urlFilePair.txt",'r')while True: line = f1.readline() if(line == "\n" or line == ""): break tmp = line.split("\t")
2012-10-10 07:57:42
1281
原创 人生感悟
——人生如河,苦是转弯 人生面临很多抉择,得到和失去,拿得起和放得下,我们需要放弃、割舍和遗忘,放下过去,走向未来。 —— 人生如叶,苦是漂泊 飘零的心,触碰不到漂泊的岸。苦苦追寻,伤痕累累,只剩下凋落而孤寂的情怀。 ——人生如棋,苦是博弈 人生就是有缘人的博弈,有进有退,有利有弊。人们在寻找博弈中的高点,
2012-02-25 01:59:43
1480
1
原创 c++ 日志处理
在很多日志分析中,日志的每行是一个记录,用脚本处理日志很方便,但是对于大数据量处理有效率的问题。使用c++的文件操作,每次读出日志的一行记录,进行处理,对整个处理过程计时。以下代码是对一个URL日志文件(每行一个URL记录)的文件操作:#include#include#include#include#includeusing namespace std;#define UR
2011-12-19 10:40:46
3415
原创 C++ map 基本操作
#include#include#include#includeusing namespace std;typedef map URL_COUNT;//map的打印void print(URL_COUNT url_count){ for(map::iterator i = url_count.begin(); i!=url_count.end(); i++){
2011-12-16 15:05:02
1506
原创 Lucene布尔查询中的句子查询
Lucene支持term查询(TermQuery)、布尔查询、词语查询(PhraseQuery)、范围查询(RangeQuery)、前缀查询(PrefixQuery)、模糊查询(FuzzyQuery)等。Lucene的布尔查询又包括求交查询、求并查询和求差查询。在此以求交查询为例,说明Lucene的句子查询。测试程序说明:使用Lucene的求交的布尔查询。为支持中文分词,使用J
2011-12-10 22:50:00
2830
原创 Python初学笔记(1)
包括内容:变量声明、函数声明、控制结构、字符串、内置数据类型变量声明:动态类型定义语言,在第一次赋值时确定类型;强类型定义语言,整数没有强制转化不能成为字符串型函数声明:函数名后有括号,也有“:”;函数和控制结构中的内容是缩进格式,没有括号#!/usr/bin/pythondef fuc(a,b=1,c=2): if a == 3:
2011-12-09 19:03:31
1236
原创 使用lucene构建简易的全文检索系统
1. 在eclipse中安装配置lucenea) 下载lucene-core-2.3.2.jarb) File->new java project->properties->javabuild path->add external jars: lucene-core-2.3.2.jarc) 为支持中文搜索,和导入lucene-co
2011-12-09 14:45:06
1905
1
原创 数据库分表策略
1 垂直划分:将数据表中的某些字段提出,组成新的数据表。“将群组id,专辑id,音乐id提出”,组成gzm数据表,而将“群组,专辑,音乐的详细信息单独放在其他数据表中”。在求取索引、关系时,操作数据库效率更高。2 水平划分:2.1物理上的水平切分:即将数据分配到不同的db服务器上。降低单点机器的负载。2.2逻辑上的水平划分:将数据分到同一数据库的不同的数据表。多个数据表共同组成
2011-12-01 17:50:02
4019
原创 小人物
曾经,在象牙塔里,写字、读书、算算术, 从一个阶段顺利地过渡到另一个阶段, 自然的,顺利成章的, 梦想、追寻和奋斗,这些字眼在读书阶段都太牵强。 一直以来,我只是一个小人物, 和大多数的人一样:中庸、平凡、不值一提, 我有着一般的资质、一般的容貌、一般的毅力, 我又如何厚积薄发去铺垫成功或者伟大? 也许,这一辈子,我都
2011-12-01 17:41:58
1616
1
原创 研究生生涯总结
苦涩和无奈布满了我对北邮本科4年时光的记忆。我的所有弱点都暴露无遗:生活自理能力差、胆小怕事、优柔寡断、懒散、随性而没有克制、浮躁而不能抑制。我想不起一件这个阶段让我真正快乐或者引以为豪的事情,我没想过追求什么,也没有去追求什么。终日活在自己悲伤的循环里,往事不堪回首也不过如此了。 不论是对过去的深恶痛绝让我想彻底的脱胎换骨,也不论是新的环境让我想焕然一新,研究生生涯一切都变了
2011-12-01 17:16:13
3574
9
原创 使用awk处理2个文件
awk中一行是一个记录,awk用$0表示整个行,$1,$2,$3顺序的表示记录的字段,使用-F来指定输入分隔符。输出结构和控制结构类似于C语言。 awk中的内置变量:FS输入字段分隔符 (-F)OFS
2011-09-15 15:39:21
1818
原创 关系数据库设计规范化流程
数据库表结构的设计关系到:数据库的存储效率、数据完整性、可扩展性及冗余数据。 规范化:确保数据正确地分布到数据库的表中,防止操作异常及大量冗余信息的存储。数据冗余不仅占用物理空间,对数据的维护和一致性检查也带来了问题。 范式及举例: 第一范式:【数据库表中
2011-09-15 14:59:42
2149
原创 BLOOM FILTER —读数学之美
背景:判断一个元素是否在一个集合中,可以使用数组、哈希表(哈希表的存储效率一般只有50%)。Bloom filter只需要哈希表1/8 到 1/4 的大小就能解决同样的问题,但是会有一定的误识别率,可以设置白名单。 应用举例:存储一亿个垃圾邮件地址,监测新邮件是否
2011-09-15 14:10:25
1075
原创 回溯法原理及应用
回溯的基本原理:在问题的解空间中,按深度优先遍历策略,从根节点出发搜索解空间树。算法搜索至解空间的任意一个节点时,先判断该节点是否包含问题的解。如果肯定不包含,跳过对以该节点为根的子树的搜索,逐层向其祖先节点回溯,否则进入该子树,继续深度优先搜索。 回溯法解问题的所有
2011-09-15 12:10:25
6460
原创 最大熵模型—读数学之美
保留全部的不确定性,使得熵最大,风险最小。 最大熵原理:对一个随机事件的概率分布进行预测时,要满足全部的已知条件,对未知的情况不要做主观假设,概率分布越均匀,预测风险越小。要保留所有的不确定性。 举例:拼音转汉字1.根据语言模型:wang-xiao-bo,可以
2011-09-14 19:46:58
1337
原创 有限自动机—query中的where识别
有限状态自动机:5元组(Ʃ,Q,δ,q0,A)Ʃ:有限的输入字母表Q:有限的状态集合δ:从Ʃ* Q到Q的函数,状态转义函数q0:初始状态A:可接受状态集,A是Q的子集DFA & NFA的区别:DFA的转移函数δ:(Qi,x)->Qj
2011-09-14 11:27:17
1328
原创 网页和查询的相关性度量—读数学之美
基本方法:关键词出现频率对查询切词,网页中包含的词越多,就越相关。考虑到长文本比短文本有优势,根据网页的长度对关键词出现的次数进行归一化:关键词的频率(term frequency)=关键词的次数/网页总字数。 举例:一共有一千词的网页中“原子能”、“的”和“应用
2011-09-13 22:48:58
1302
原创 信息论的几个概念—读数学之美
使用信息熵来度量信息,单位bit。信息量度量的理解:例子:马上要举行世界杯赛了,大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我
2011-09-13 22:44:18
1136
原创 中文分词—读数学之美
语言统计模型:设S表示一连串特定顺序排列的词:w1,w2,w3,…,wn,S可能是一个有意义的句子。 S在文本中出现的可能性,即P(S):P(S)=P(w1)*P(w2|w1)*P(w3| w1 w2)…*p(wn| w1 w2 … wn-1)p(w1)表示w1出
2011-09-12 16:20:55
2020
原创 相关视频算法
背景:根据视频名称,得到若干相关视频方法:对视频名称切词,将切词后的term进行拉链求并,按照视频名称中term出现个数排序 缺点:拉链求并代价高,没有考虑到term的权重,没有考虑视频属性改进:考虑英文、数字带来的影响去除视频名称中冗余、没有意义
2011-09-12 15:35:12
921
原创 网站基本概念总结
分清浏览器和服务器语言:浏览器 服务器js, html jsp,cgi,phpcgi和php的区别:cgi返回http头,php只需要返回http body。在apache(httpd.conf)中配置不同种类文件使
2011-09-12 11:38:34
954
原创 常用linux命令总结
统计当前目录下所有.h文件的个数:find . -name "*.h" | wc -l统计当前目录下所有.h文件的总代码行数:find . -name "*.h" | xargs wc -l统计当前目录的文件总大小:du -hc(-h:以最简的形式显示)传输大文件时:rz -be解压tar.gz文件:tar zxvf x.tar.gz解压tar.bz2文件:tar jxvf x.tar.bz2将数
2011-09-12 11:11:43
993
原创 链表<总结一>
链表的基本知识点:单链表逆置判断链表是否有环从无头单链表中删除节点判断两个单链表是否相交 从无头单链表中删除节点:假设有一个没有头指针的单链表。一个指针指向此单链表中间的一个节点(不是第一个,也不是最后一个),请将该节点从单链表中删除。解答:将该指
2011-09-11 12:38:21
820
原创 C库函数—strcpy实现
strcpy:将原串拷贝到目的串,不拷贝NULL 以下为具体实现:#include#include#includechar * strcpy(char * strDest, const char * strSrc){ if(NULL == strS
2011-09-11 12:35:40
825
原创 贪心算法的几个应用
贪心算法具有2个性质:1、贪心选择性质:只在当前状态下做最优选择,即局部最优选择,再自顶向下,去解做出这个选择后产生的相应子问题。每做一次选择,问题就转化为规模更小的子问题。对于一个具体问题,要确定它是否具有贪心选择性质,必须证明每一步做出的选择最终导致问题的整体最优解。
2011-09-11 12:30:25
1350
原创 最小优先级队列 — 使用最小堆实现
最小优先级支持的操作:1.INSERT(S,x):将元素x插入队列S2.MINIMUM(S):返回S中最小的元素3.EXTRACT_MIN(S):去掉并返回S中最小的元素4.DECREASE_KEY(S,x,key):将下标为x的元素值降低为key 使用最
2011-09-11 12:25:15
5168
原创 二叉树<总结二>
二叉树基本知识点2: 二叉树的非递归后序遍历前序遍历是:根、左、右,后序遍历是:左、右、根,观察发现:前序和后序刚好遍历顺序相反。由于非递归后序遍历需要保存根节点及第几次访问,比较麻烦。可以将整个过程变为先非递归前序遍历,将结果保存,再将结果翻转即可。 已知二叉树的前序、中序序列,求后序序列void suffix_order(char* pre_order, char* i
2011-09-11 12:17:09
899
原创 二叉树<总结一>
二叉树的知识点1:二叉树存储结构前序建立二叉树前序遍历、中序遍历、后序遍历(递归、非递归)二叉树节点总数二叉树叶子节点数二叉树深度遍历二叉树第i层节点分层遍历二叉树(递归、非递归)求二叉树中节点的最大距离已知前序、中序,重建二叉树:
2011-09-11 12:09:50
926
原创 lucene索引结构的整理
<br /> <br />倒排索引结构,示例如下:<br /> <br />设有2篇文章:<br />文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. <br />文章2的内容为:He once lived in Shanghai. <br /> 分词:英文以空格分隔,中文根据基础词典和扩展词典分隔为字和词。去停用词、标点符号、大小写转换等,由Analyzer完成。<br />文章1的所有关键词为:[tom] [live] [guan
2011-04-10 13:12:00
2176
原创 c/s结构和b/s结构
1、c/s结构即client/server(客户端/服务器模式);服务器一般使用高性能的PC机,工作站或者小型机,采用大型数据库系统;客户端需要安装专用的客户端软件,自行安装和升级;建立在局域网基础上,面对固定的用户群,安全性要求高2、b/s结构即brower/server(浏览器/服务器模式);服务器安装数据库等;客户机上安装浏览器,浏览器通过web server和服务器交互;建立在广域网基础上;面对未知用户群,安全性相对低。
2011-03-24 11:32:00
1176
原创 生命的意义
<br /><br />曾经,我为着没有那么重要的程序,煎熬自己的身体;<br />曾经,我为着没有多大不了的事情,扰乱自己的心智;<br />曾经有太多的沮丧、抱怨和不明白<br />曾经有太多的纠结、焦躁和不知所措<br />我把满满的沧桑和青涩留给曾经<br />离弦的箭在寻找着自己的方向,也在抗击着阻力<br />生命的意义在于追寻,也在于突破后的提炼和成长<br />让我们微笑、坦然和积极<br />珍惜每一次机遇<br />坚实每一次挑战<br />总结每一次历练<br />让我们把满满的喜悦和
2011-03-23 00:02:00
1344
1
原创 nutch之crawl命令
1、建立urls目录并添加163文件[root@localhost nutch]#mkdir urls[root@localhost nutch]#echo http://www.163.com/>>urls/1632、编辑conf/crawl-urlfilter.txt文件,设定要抓取的网址信息[root@localhost nutch]#vi conf/crawl-urlfilter.txt修改MY.DOMAIN.NAME为:# accept hosts in MY.DOMAIN.NAME
2011-03-20 13:47:00
2482
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人