- 博客(38)
- 资源 (15)
- 收藏
- 关注
转载 Sogou的语料库的问题
最近在训练HMM模型的时候,发现一句话的结果很奇怪,原文“据北京中原地产...”。可是我的模型输出结果是“聚北京中原....”。程序写错了? 不应该呀,模型调试过好多次应该没有这么严重的问题呀。 于是开始从数据下手,发现二元的“聚北”和三元的“聚北京”出现次数异常的高,远远超过“据北京”的频率,这样导致最终的模型计算概率的结果出现问题。再返回到最原始的抽取数据去看看到底什么内容是“
2013-04-16 09:43:27
1523
转载 关于Heritrix的Extractor中文乱码
关键字:Heritrix 中文 乱码 GB2312 Extractor 继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString()
2013-04-13 20:53:16
1623
原创 使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词
一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词
2013-04-11 15:58:13
7275
2
转载 eclipse中配置heritrix的过程----heritrix-1.14.4
将heritrix-1.14.4-src和heritrix-1.14.4两个压缩文件解压<?xml:namespace prefix = o ns ="urn:schemas-microsoft-com:office:office" />配置过程:1、新建Java Project工程在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工
2013-03-06 10:56:10
2024
原创 STL容器的效率比较
1.介绍顺序存储容器 : string、vector、list、deque 关联存储容器:map底层采用的是树型结构,多数使用平衡二叉树实现,查找某一值是常数时间,遍历起来效果也不错, 只是每次插入值的时候,会重新构成底层的平衡二叉树,效率有一定影响. set 和map都是无序的保存元素,只能通过它提供的接口对里面的元素进行访问 set:集合, 用来判断某一个元素是不是在一个组
2012-07-29 17:15:26
5989
原创 C++ 虚析构函数
联编就是将模块或者函数合并在一起生成可执行代码的处理过程,同时对每个模块或者函数调用分配内存地址,并且对外部访问也分配正确的内存地址,它是计算机程序彼此关联的过程。按照联编所进行的阶段不同,可分为两种不同的联编方法:静态联编和动态联编。静态联编是指在编译阶段就将函数实现和函数调用关联起来,因此静态联编也叫早绑定,在编译阶段就必须了解所有的函数或模块执行所需要检测的信息,它对函数的选择是基于指向
2012-06-30 22:23:07
835
原创 POJ2352——树状数组的应用
StarsTime Limit: 1000MSMemory Limit: 65536KTotal Submissions: 21050Accepted: 9172DescriptionAstronomers often examine starmaps where stars are represent
2012-05-20 22:08:15
871
转载 写给想学Linux系统的人
linux太难用了!(一通鼠标点击,进入/etc)学习linux,你忘记windows的思维方式了吗?怎么安装软件 阿?那一堆文件是干什么的阿?学习linux,你还在浮躁吗?进入linux,随便按了几下.赶紧重启进入win学习linux,你用心了吗?…….首先,我想引用一下别人说过的一句话:除非在过去的十年你一直生活在山洞里,否则你一定听说过linux.是的,现
2012-05-19 22:36:12
1255
转载 分享8年开发经验,浅谈个人发展经历,明确自己发展方向
在中国有很多人都认为IT行为是吃青春饭的,如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的,在下从事.NET及JAVA方面的开发的也有8年的时间了,在这里在下想凭借自己的亲身经历,与大家一起探讨一下。 明确入行的目的 很多人干IT这一行都冲着“收入高”这一点的,因为只要学会一点HTML, DIV+CSS,要做一个页面开发人员并不是一件难事,而且做一个页面开发人员更容
2012-05-19 22:35:26
1437
原创 某公司面试题——怎样优化乘法?
某公司面试题——怎样优化乘法?要求算法尽量高效。#include using namespace std; //获得一个2的指数这个数的幂int getMi(int num){//不是2的指数则直接返回0if(num & (num -1) != 0)return 0;int times = 0;while (num >>= 1){times++;}r
2012-05-16 23:29:08
1647
原创 POJ-1150(求排列数P(n,m)中最后一个非0的数字)
1.如何求出n阶乘中质因数x(比如说5)出现的次数? int get(int m, int n)//计算n!中质因子m的出现次数 { if (n == 0) return 0; return (n / m) + get(m, n / m); } 解析:求n!中m出现的次数。那么n可以分解为即为求q的值。例如:假
2012-05-10 21:42:53
3096
原创 硬盘安装CentOS6.2详解
硬盘安装CentOS6.2详解 由于项目需要,最近要用到Linux了。于是乎,在现有的XP系统上手到擒来装了个VMware。然后下载了一个CentOS6.2的LiveCD版本。装上虚拟机后,发现运行起来巨慢,相信巨多同学们也发现了这个问题,而且用VM怎么也显得咱不专业啊。 这是前话,于是我打算装双系统了。虽然之前我用光盘装过双系统,整个过程一气呵成,操作简单,成果绚丽。但是
2012-05-03 23:10:57
10662
转载 POJ1753——Flip Game
Flip GameTime Limit: 1000MS Memory Limit: 65536K Total Submissions: 4863 Accepted: 1983DescriptionFlip game is played on a rectangular 4x4 field with two-sided pieces placed on each of i
2011-12-13 11:17:17
3494
原创 C++中的格式化输出
#include //不要用iostream.h ,会出现好多问题#include // io 流控制头文件, 主要是一些操纵用法如setw(int n),setprecision(int n)//,setbase(int n),setfill(char c)的.▲setw(n)用法: 通俗地讲就是预设宽度如 cout结果是:(空格)(
2011-12-08 11:28:26
1624
转载 最小生成树的prim算法贪心正确性的证明
首先,一定有一个最优解包含了权值最小的边e_1(prim的第一步),因为如果不是这样,那么最优的解不包含e_1,把e_1加进去会形成一个环,任意去掉环里比e_1权值大的一条边,这样就构造了更优的一个解,矛盾用归纳法,假设prim的前k步选出来的边e_1,…, e_k是最优解的一部分,用类似的方法证明prim的方法选出的e_k+1 一定也能构造出最优解。
2011-12-06 10:31:39
11265
5
转载 写给想学Linux系统的人
写给想学Linux系统的人 linux太难用了!(一通鼠标点击,进入/etc)学习linux,你忘记windows的思维方式了吗?怎么安装软件 阿?那一堆文件是干什么的阿?学习linux,你还在浮躁吗?进入linux,随便按了几下.赶紧重启进入win学习linux,你用心了吗?…….首先,我想引用一下别人说过的一句话:除非在过去的十年你一直生活在山洞
2011-12-06 09:58:54
1161
转载 最小生成树的prim算法
在无向加权图中,n个顶点的最小生成树有n-1条边,这些边使得n个顶点之间可达,且总的代价最小。prim算法是一种贪心算法,将全部的顶点划分为2个集合,每次总在2个集合之间中找最小的一条边,局部最优最终达到全局最优,这正是贪心的思想。具体的描述参见相关书籍:描述从单一顶点开始,普里姆算法按照以下步骤逐步扩大树中所含顶点的数目,直到遍及连通图的所有顶点。1. 输入:一个加权连
2011-12-06 09:37:44
1400
转载 最小生成树的kruskal算法
Kruskal算法思想 不同于Prim算法,Kruskal算法是一种按照连通网中边的权值的递增顺序构造最小生成树的算法。假设G=(V,E)是一个具有n个顶点的连通网,T=(U,TE)是G的最小生成树。Kruskal算法的基本思想是令集合U的初值为U=V,即包含有G中全部顶点,集合TE的初值为TE={}。然后,将图G中的边按权值从小到大的顺序依次选取,若选取的边使生成树T不形成回路,
2011-12-06 09:33:09
4282
原创 POJ1050 DP
To the MaxDescriptionGiven atwo-dimensional array of positive and negative integers, a sub-rectangle is anycontiguous sub-array of size 1*1 or greater located within the whole array. Thesum of a r
2011-11-05 20:01:54
1269
转载 httpClient应用
httpClient应用一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网
2011-11-04 09:36:32
865
转载 动态规划的思想
动态规划的思想 动态规划( dynamic programming )算法是解决多阶段决策过程最优化问题的一种常用方法,难度比较大,技巧性也很强。利用动态规划算法,可以优雅而高效地解决很多贪婪算法或分治算法不能解决的问题。动态规划算法的基本思想是:将待求解的问题分解成若干个相互联系的子问题,先求解子问题,然后从这些子问题的解得到原问题的解;对于重复出现的子问题,只在第一次遇到的时候对它
2011-10-24 15:52:14
8723
1
原创 0-1背包问题的递归实现与非递归实现
题目有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使价值总和最大。基本思路这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便是: 这个方程非常重要,基本上所有跟背包相关的问题的方程都是由它衍生出来的。所以有必
2011-10-24 15:19:19
21583
10
转载 递归与非递归的比较
递归与非递归的比较非递归效率高;递归代码写出来思路清晰,可读性强。 生成可执行文件大小应该和编译器有关吧。。。。递归的话函数调用是有开销的,而且递归的次数受堆栈大小的限制。 以二叉树搜索为例: bool search(btree* p, int v) { if (null == p) return false; if (v == p->v
2011-10-24 15:09:14
13915
转载 函数返回局部变量
看看下面的程序的输出:#include char *returnStr(){ char *p="hello world!"; return p;}int main(){ char *str; str
2011-10-14 11:48:16
758
原创 记录程序的运行时间
#include //计时用的头文件#include#include#pragma comment(lib,"winmm.lib")using namespace std; const int N = 6;void main(){
2011-10-14 11:47:40
2356
转载 C++ 值传递 址传递 引用传递
1:按值传递: 程序如下: view plaincopy to clipboardprint?#include using namespace std; void swap(int a,int b)//指针保存地址 {
2011-10-14 11:46:46
463
转载 一些常用的算法集
1.冒泡#include void BubbleSort(int* pData,int Count){ int iTemp; for(int i=1;i { for(int j=Count-1;j>=i;
2011-10-14 11:45:48
808
转载 C/C++动态内存创建与内存管理
1 内存空间逻辑组织A 静态数据区:内存在程序启动的时候才被分配,而且可能直到程序开始执行的时候才被初始化,如函数中的静态变量就是在程序第一次执行到定义该变量的代码时才被初始化。所分配的内存在程序的整个运行期间都存在,如全局变量,static变量等。注意:初始化的全局变量
2011-10-14 11:44:33
867
转载 网络爬虫讲解(附java实现的实例)
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这
2011-10-13 17:43:24
73995
1
转载 java的所谓一次编译,到处运行
java的所谓一次编译,到处运行,也是对于同一个版本的jre而言的,比如你用1.5版本编译出来的,在1.4版本的就不一定能运行了(jre包括jvm以及运行时的类库)。但是,就同一个版本的jre而言,java的确做到一次编译,到处运行。因为java编译出来的并不是具体某个平台的二进
2011-10-13 17:40:36
6404
转载 Java中Runnable和Thread的区别
在java中可有两种方式实现多线程,一种是继承Thread类,一种是实现Runnable接口; Thread类是在java.lang包中定义的。一个类只要继承了Thread类同时覆写了本类中的 run()方法就可以实现多线程操作了,但是一个类只能继承一个父类,这是此方
2011-10-13 17:39:17
1006
转载 头文件重复引用
#include文件的一个不利之处在于一个头文件可能会被多次包含,为了说明这种错误,考虑下面的代码:#include "x.h"#include "x.h"显然,这里文件x.h被包含了两次,没有人会故意编写这样的代码。但是下面的代码:#include "a
2011-09-30 09:27:07
631
转载 vss服务器突然连接不上了,提示说does not contain a valid sourcesafe database(srcsafe.ini)
解决方案:把vss服务器上的srcsafe.ini和users.txt拷贝到我的文档里就ok了然后在VS里: Tools ->Options ->Source Control -> Current source control plug
2011-08-31 15:57:33
8935
1
原创 一个解决数字螺旋排列的程序
题目:编程输出以下格式的数据: When i=0 1 When i=1 7 8 9 6 1 2 5 4 3 When i=2 21 22 23 24 25 20 7 8 9 10 19 6 1 2 11 1
2011-07-26 16:23:37
1191
原创 C#中的Dictionary简介
在C#中,Dictionary提供快速的基于兼职的元素查找。当你有很多元素的时候可以使用它。它包含在System.Collections.Generic名空间中。 在使用前,你必须声明它的键类型和值类型。 详细说明必须包含名空间System.Collection.Generic Dictionary里面的每一个元素都是一个键值对(由二个元素组成:键和值) 键必须是唯一的,而值不需要唯一的 键和值都
2011-06-09 11:08:00
1564
原创 foreach用法
循环语句是编程的基本语句,在C#中除了沿用C语言的循环语句外,还提供了foreach语句来实现循环。那么我要说的就是,在循环操作中尽量使用foreach语句来实现。 为了来更好地说明为什么要提倡使用foreach,用如下三种不同方式来编写循环语句。 int[] nArray = new int[100]; // Use "foreach" to loop array foreach( int i
2011-06-09 11:02:00
821
转载 Visual Studio 2008常用快捷键
Visual Studio 2008常用快捷键调试快捷键F6: 生成解决方案Ctrl+F6: 生成当前项目F7: 查看代码Shift+F7: 查看窗体设计器F5: 启动调试Ctrl+F5: 开始执行(不调试)Shift+F5: 停止调试Ctrl+Shift+F5: 重启调试F9: 切换断点Ctrl+F9: 启用/停止断点Ctrl+Shift+F9: 删除全部断点F10: 逐
2009-10-15 11:11:00
600
转载 VS2008 安装失败(“Web 创作组件”无法)
今天安装VS2008时出现了问题,怎么都无法安装成功。于是在网上找答案,还真给找到了。贴出来大家学习一下。Visual Studio 2008 中文正式版可以从微软网站下载试用了,因为之前用英文版感觉比2005快一些,虽然.NET Framework 3.5有点庞大,但还是可以选择开发2.0的项目,因此打算立马安装。试用期为三个月,足够长了,因此安装Team System版本,体验
2009-10-15 11:08:00
4566
5
PowerDesigner 教程 数据库
2011-03-18
Linux学习资料详细
2010-09-12
JavaScript资料大全
2010-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人