
自然语言处理
文章平均质量分 59
cserchen
盛大 百度 复旦 数据挖掘 推荐系统 搜索引擎 机器学习
展开
-
TSE网页存储、中文分词、倒排索引生成
TSE网页存储<br /> <br />根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.<br />比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415<br />意思就是线程号为8415的取的原始网页集合文件<br />对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)<br />需要建立一个表,对每个记录(CDocument)在原始网页文件中的原创 2010-11-12 11:59:00 · 2018 阅读 · 0 评论 -
TSE(Tiny Search Engine)介绍
TSE是Tiny Search Engine(“微型搜索引擎”)的简称,由北京大学网络实验室出品这个实验室推出过当年教育网搜索颇有名气的 “北大天网搜索”天网培养了中文互联网早期的一批的搜索技术专家bd的技术路线和TSE很像TSE包括网页抓取、分词、倒排索引生成等模块,可以视为天网的袖珍版。 代码用C++开发,短小精干,运行效率很高我感觉实际效果比开源的一些Spider要好,修改起来也很方便 TSE网页抓取开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch原创 2010-11-12 11:46:00 · 3900 阅读 · 1 评论 -
开源中文分词FudanNLP
推荐FudanNLP,这是一个复旦大学计算机学院开发的开源中文自然语言处理(NLP)工具包Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能,对搜索引擎、文本分析等极为有价值。开源项目地址为:http://code原创 2011-09-28 13:43:03 · 15310 阅读 · 2 评论 -
网页UTF8转换GBK后出现问号"?"的原因
网页UTF8转换GBK后出现问号"?"的原因 网页编码转换是进行网页解析和处理的第一步。互联网上越来越多的网页采用UTF-8编码,UTF-8用1到6个字节编码UNICODE字符,收录了超过10万个字符,BMP部分也有六万多个字符 而在进行编码转换时,我们往往需要转换为GBK编码进行后续处理,很多网页在转换后,会发现出现大量连续的问号:????????这些恶心的问号是在编码转换阶原创 2010-10-21 16:21:00 · 12970 阅读 · 1 评论 -
机器学习资源大全
推荐!国外程序员整理的机器学习资源大全本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操转载 2014-08-25 18:57:31 · 4143 阅读 · 0 评论