LawCrimeMining
Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
项目地址:https://github.com/liuhuanyong/LawCrimeMining
项目介绍
正邪不两立,法律与犯罪水火不容,随着我国法制建设不断健全,法规日趋完善,人们的法律意识也越来越强.当前,随着越来越多的法律文本公开,为犯罪案件审理这个方面的挖掘积累了大量的文本内容.因此,通过收集法律与犯罪领域文本,构建起司法领域语料库,并使用自然语言处理技术进行挖掘,具有重要意义,我们将其称为法律智能,引用smp2018司法论坛的发言来说,法律智能包括以下几个应用点:
- 面向案例文书的判决预测:根据案件的案情描述,预测最终的判决结果。
- 拓扑结构预测的判决预测:通过法官的判案逻辑找到子任务之间的依赖关系。
- 引入区分性属性的罪名预测,包括低频罪名、混淆罪名的相应预测:通过引入显式的属性,能对低频罪名进行基于属性的判断,对混淆罪名进行区分;此外还能采用多任务学习及注意力机制训练基于属性的罪名预测模型。
- 基于层次结构的案由预测:通过刑事案由(罪名)和民事案由的层次结构,结合案由本身的文本信息,采用序列预测及基于案由名称的注意力机制,训练相应模型。
- 基于法律阅读理解的判决预测:由于在民事案件中判决结果需要结合原告的具体诉求,可以建立基于阅读理解机制,模仿「人带着问题找答案」的阅读理解行为进行案件判决的预测。
项目结构
本项目由两个部分组成:
1)司法领域语料库的构建,这个部分细分为两个子库,一个是法律裁判文书,另一个是犯罪案例
2)基于司法领域语料