学习machine reading comprehension相关知识也有一段时间了,所以我构造了一个demo,来跑一把baseline模型。模型可以运行了,但是性能还未知。
模型的目的是能够根据文章和问题给出对应的答案,用4条数据训练(data1-data4),1条数据测试(data5):
data1 = {"answer": "特殊教育学校", "query": "智障学校叫啥", "passage":"智障学校(也叫特殊教育学校)分为公立和私立两种。公办特殊教育学校学费全免,符合条件的智障孩子都可以报名。"}
data2 = {"answer": "2011年", "query": "微信哪一年有的","passage":"微信是腾讯公司于2011年1月21日推出的一款手机聊天软件。2012年9月17日,微信注册用户过2亿"}
data3 = {"answer": "后厨", "query": "海清和小沈阳演的电视剧","passage": "海清和小沈阳主演的电视剧 有没有妈妈看《后厨》的,感觉怎么样,我看得可是挺来劲的。里面搞笑的戏份有意思。..."}
data4 = {"answer": "李春波", "query": "一封家书刚开始谁唱的","passage": "唱小芳的那个 李春波 [如果我的回答对您有帮助 请点击"好评"支持下 谢谢]"}
data5 = {"answer": "李春波", "query": "小芳谁唱的","passage": "唱小芳的那个人叫 李春波,谢谢"}
最后系统运行得到的答案是:“李春波,谢”,显然还有很多工作要继续进行。
具体代码已经放在github上了,网址为:https://github.com/WangJiuniu/naive_qa