nlp资料库集锦

语料库资源:http://kdd.ics.uci.edu/databases/

我爱自然语言处理

http://www.52nlp.cn/

镜像

http://blog.52nlp.org/tag/python

http://blog.52nlp.org/getting-started-in-natural-language-processing

机器翻译

http://www.nlplab.com/NiuPlan/NiuTrans.html

语义相似度测试集

http://download.youkuaiyun.com/source/3462335

 

ACL 2010大会论文集

http://www.aclweb.org/anthology/P/P11/

http://www.aclweb.org/anthology/W/W11/

 

哈工大语言技术平台(LTP)

http://ir.hit.edu.cn/ltp/

http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=361

EMNLP 2011

http://conferences.inf.ed.ac.uk/emnlp2011/papers.html

 



英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大

大学英语学习者口语语料库 COLSEC (5万) 上海交大
香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学
中国英语专业语料库 CEME (148万) 南京大学
中国英语学习者口语语料库 SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大
硕士写作语料库 MWC (12万) 华中科技大学
平行语料库 汉英平行语料库 PCCE 北外
南大-国关平行语料库 南京大学
英汉文学作品语料库; 外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所
对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库 中国英语(China English)语料库河南师范大学
军事英语语料库(Corpus of Military Texts) 解放军外语学院
新视野大学英语教材语料库 上海交通大学
汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字) 北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库 中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所

北京大学汉语语言学研究中心的三个语料库

现代汉语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=1
 古代汉语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=2
 汉英双语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=3

http://www.corpus4u.org/printthread.php?t=2742



平行语料库数据库设计方案 平行语料库数据库设计主要涉及到对对应单位及其外围信息的存储方面,下面是对平 行语料库数据库中主要表的初始设计方案。 "表一:Language(语言表) " "列名 "数据类型 "说明 " "LanId "Int(10)"唯一标识符 " "LanName "Nvarchar "语言名称 " "LanMark "Int(10)"语言标识说明 " 注:为语言字典,为了对平行语料库的扩展,实现多语种的翻译。 "表二:Domain(领域表) " "列名 "数据类型 "说明 " "DomId "Int(10) "领域的唯一标识符 " "PdomId "Int(10) "父节点的ID " "DomName "Nvarchar "领域名称 " "DomDate "Datetime "领域添加时间 " "Isleaf "Bit "是否叶子节点(1-not leaf " " " "0-leaf) " "DomMark "Int(10) "领域标识说明 " 注:此表为领域信息表,实现对领域知识的自动识别,领域的树形结构的显示 "表三:ParallelDoc(平行文档表) " "列名 "数据类型 "说明 " "DocId "Int(10) "平行文档唯一标示 " "OriginDocXML"XML "源文档的XML存储 " "TargetDocXML"XML "目标文档的XML存储 " "ExtendType "XML "扩展字段 " 注:为平行文档的存储 "表四:datatype(数据来源信息类型记录表) " "DatatypeId "Int(10) "数据来源信息类型标识" "DatatypeName "Nvarchar "数据来源信息类型 " 注:此表记录着外围信息表中的数据信息来源类型,如网络、书籍、报纸等。 "表 五:PropertiesInfo(外围信息表) " "列名 "数据类型 "说明 " "DocId "Int(10) "平行文档外围信息唯一标示 " "OriginTitle "Nvarchar "源文档的标题 " "OriginAuthor "Nvarchar "源文档的作者 " "OriginPublish"datetime "源文档发行时间 " "Time " " " "DomId "Int(10) "文档的领域信息 " "OriginLanId "Int(10) "源文档的语言信息 " "OriginPublish"Nvarchar "源文档出版社 " "er " " " "TargetTitle "Nvarchar "目标文档的标题 " "TargetAuthor "Nvarchar "目标文档的作者 " "TargetPublish"datetime "目标发行时间 " "Time " " " "Intodbtime "datetime "文档入库时间 " "TargetLanId "Int(10) "目标文档的语言信息 " "TargetPublish"Nvarchar "目标文档出版社 " "er " " " "UserId "Int(10) "用户信息 " "DataTypeId "Int(10) "数据来源信息类型 " "XmlExtends "Xml "扩展字段 " 注:外围信息的存储 "表六:CorrespondCu (语料对应块记录表) " "列名 "数据类型 "说明 " "CuSn "Int(10) "对应块唯一标识符 " "DocId "Int(10) "文档唯一标识符 " "OriginPassag"Int(10) "源文语料块所在的段落 " "e " " " "OriginSenten"Int(10) "源文语料块所在的句子 " "ce " " " "OriginPositi"Int(10) "源文语料块在句子中的位置" "on " " " "OriginSrartI"Int(10) "源文语料块开始索引位置 " "ndex " " " "OriginCu "Nvarchar "源文语料块内容 " "TargetPassag"Int(10) "目标语料块所在的段落 " "e " " " "TargetSenten"Int(10) "目标语料块所在的句子 " "ce " " " "TargetPositi"Int(10) "目标语料块在句子中的位置" "on " " " "TargetSrartI"Int(10) "目标语料块开始索引位置 " "ndex " " " "TargetCu "Nvarchar "目标语料块内容 " "Xmlextends "Xml "备注字段 " 注:对应单位的存储 "表七:Origin_UnCu(源文语料保留块记录表) " "列名 "数据类型
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值