阿拉伯语抄袭检测系统的设计与实现
1. 引言
抄袭是对他人作品的非法使用,是一种文学或知识层面的盗窃行为,很多人会借此抄袭他人文本或盗用原创想法。对于大学和研究人员而言,抄袭是一个关键问题。面对抄袭,人们主要关注两个问题:如何避免抄袭以及如何检测抄袭。
消除抄袭有两种途径:抄袭检测方法和抄袭预防方法。抄袭检测方法包括专业的抄袭检测软件和人工检测方法,这类方法实施起来简单快捷。而抄袭预防方法虽然具有积极的长期影响,但由于依赖大学间的社会合作,实施起来耗时较长,例如对抄袭者实施制裁等措施。这两种方法可以结合使用以消除抄袭现象。尽管软件是识别抄袭最有效的方式,但最终的抄袭判定仍需人工完成。
抄袭不仅包括直接抄袭文本,还包括通过改变单词位置、使用同义词改写句子等方式,而不注明原始来源。抄袭的类型有精确抄袭、修改抄袭、创意抄袭等。抄袭检测的一个重要特点是保护作者权益,帮助科研机构确保所提供的科研成果未抄袭前人作品,从而促进科研生产中的道德原则。
2. 文献综述
目前英语抄袭检测方面的研究较多,而阿拉伯语相关研究相对较少。以下是一些相关研究:
- Alzahrani和Salim :采用模糊集信息检索(IR)模型检测阿拉伯语文本抄袭。通过计算两个短语的相似度,并与阈值比较来判断语句是否相似。但该模糊模型无法处理使用不同同义词或反义词改写的情况。
- Jadalla和Elnagar :运用指纹识别方法、n - gram方法将文本分割成单词,并使用 Winnowing 算法减小索引大小。数据集包含学生项目集、116,011 份阿拉伯语维基百科文件、《古兰经》和
阿拉伯语抄袭检测系统设计
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



