未完待续
文章大纲
语料收集
语料库
语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。其具备
三个显著的特点:1
自然语言处理理论与实战
⊚ 语料库中存放的是在语言的实际使用中真实出现过的语言材料。
⊚ 语料库以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识。
⊚ 真实语料需要经过加工(分析和处理),才能成为有用的资源。
中文语料库
《自然语言处理入门与实战》书中内容:
⊚ 搜狗实验室新闻 | 互联网数据:http://www.sogou.com/labs/
⊚ 北京大学语言研究中心:http://ccl.pku.edu.cn/term.asp
⊚ 计算机语言研究所:http://www.icl.pku.edu.cn/icl_res/
⊚ 数据堂:http://www.datatang.com/
⊚ 中央研究院平衡语料库(https://www.sinica.edu.tw/SinicaCorpus/)
专门针对语言分析
而设计的,每个文句都依词断开并标示词类。语料的搜集也尽量做到现代汉语分配在
不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主
要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使
用说明,现行的语料库是 4.0 版本。
⊚ LIVAC 汉语共时语料库:http://www.livac.org/index.php?lang=tc
⊚ 兰开斯特大学汉语平衡语料库:http://www.lancaster.ac.uk/fass/projects/corpus/
⊚ 兰开斯特——洛杉矶汉语口语语料库:http://www.lancaster.ac.uk/fass/projects/corpus/
⊚ 语料库语言学在线:http://www.corpus4u.org/
⊚ 北京森林工作室汉语句义结构标注语料库:http://www.isclab.org.cn/csa/bfs-ctc.html
⊚ 国家语委现代汉语语料库(http://www.cncorpus.org/):现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约 2000 万字,为分词和词性标注语料。
⊚ 古代汉语语料库(http://www.cncorpus.org/login.aspx):网站现在增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。网站同时还提供了分词、词性标注软件,词频统计、字频统计软件。基于国家语委语料库的字频词频统计结果和发布的词表等进行建库,以供学习研究语言文字的同学和老师使用
⊚《人民日报》标注语料库(http://www.icl.pku.edu.cn/icl_res/ 链接已经失效):《人民日报》标注语料库
中一半的语料(1998 年上半年)共 1300 万字,已经通过《人民日报》新闻信息中心公
开并提供许可使用权。其中一个月的语料(1998 年 1 月)近 200 万字在互联网上公布,
可自由下载。
语料库
⊚ 古汉语语料库(http://www.sinica.edu.tw/ftms-bin/ftmsw):古汉语语料库包含以下五个
语料库—— 上古汉语、中古汉语(含大藏经)、近代汉语、出土文献、其他。
部分数据取自史语所汉籍全文数据库,故两者间内容略有重叠。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。
⊚ 近代汉语标记语料库(http://www.sinica.edu.tw/Early_Mandarin/):为应对汉语史研究需求而建构的语料库。目前语料库所搜集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。
⊚ 树图数据库(http://treebank.sinica.edu.tw/)
⊚ 搜文解字(http://words.sinica.edu.tw/):包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,以及直接链接到出处并阅读原文。
⊚ 文国寻宝记(http://www.sinica.edu.tw/wen/):在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合。与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。
⊚ 唐诗三百首(http://cls.admin.yzu.edu.tw/300/):以中小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据包含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。
⊚ 汉籍电子文献(http://www.sinica.edu.tw/ tdbproj/handy1/):包含整部 25 史整部阮刻 13
经、超过 2000 万字的台湾史料、1000 万字的大正藏及其他典籍。
⊚ 红楼梦网络教学研究数据中心(http://cls.hs.yzu.edu.tw/HLM/home.htm):元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持。红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内最大的在线中国文学研究数据库,提供用户最完整的
中国文学研究数据。
⊚ 中国传媒大学文本语料库检索系统(http://ling.cuc.edu.cn/RawPub/)
⊚ 在线分词标注系统(http://ling.cuc.edu.cn/cucseg/)
⊚ 新词语研究资源库(http://ling.cuc.edu.cn/newword/web/index.asp)
⊚ 音视频语料检索系统(http://ling.cuc.edu.cn/mmcpub)
⊚ 哈工大信息检索研究室对外共享语料库资源(http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.html):该语料库为汉英双语语料库,10 万对齐双语句对,文本书件格式,同义词词林扩展版,77343 条词语,秉承《同义词词林》的编撰风格。同时采用五级编码体系,多文档自动文摘语料库,40 个主题,文本书件格式,同一主题下是同一事件的不同报道。汉语依存树库,不带关系 5 万句,带关系 1 万句;LTML 化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264 句;已标注问题类型,LTML 化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库共 211 篇。
⊚ 清