国内语料库建设

英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大
大学英语学习者口语语料库 COLSEC (5万) 上海交大
香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学
中国英语专业语料库 CEME (148万) 南京大学
中国英语学习者口语语料库 SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大
硕士写作语料库 MWC (12万) 华中科技大学
平行语料库 汉英平行语料库 PCCE 北外
南大-国关平行语料库 南京大学
英汉文学作品语料库; 外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所
对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库 中国英语(China English)语料库河南师范大学
军事英语语料库(Corpus of Military Texts) 解放军外语学院
新视野大学英语教材语料库 上海交通大学
汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字) 北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库 中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所

北京大学汉语语言学研究中心的三个语料库

现代汉语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=1
 古代汉语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=2
 汉英双语语料库
http://ccl.pku.edu.cn/yuliao.asp?item=3

http://www.corpus4u.org/printthread.php?t=2742

# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值