
代码
文章平均质量分 88
记录阅读的论文代码
hlee-top
这个作者很懒,什么都没留下…
展开
-
模式串匹配Aho–Corasic算法 python实现
简介Aho–Corasick算法是由Alfred V. Aho和Margaret J.Corasick 发明的字符串搜索算法,用于在输入的一串字符串中匹配有限组“字典”中的子串。该算法主要依靠构造一个有限状态机(类似于在一个trie树中添加失配指针)来实现。这些额外的失配指针允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart,失配指针就会指向前缀ca),转向某前缀的其他分支,免于重复匹配前缀,提高算法效率。以规则串[‘he’,‘she’,‘hi原创 2022-05-22 21:58:52 · 421 阅读 · 1 评论 -
代码笔记 | bert-event-extraction
文章目录1 数据处理1.1 数据集1.2 预处理1.2.1 数据加载1.2.2 utiles2 模型2.1 触发词预测2.2 论元预测3 训练4 评测代码链接:https://github.com/nlpcl-lab/bert-event-extraction1 数据处理1.1 数据集数据集使用ACE 2005英文序列,数据集的解析过程可参考这个博客,得到test.json、dev.json、train.json三个文件。1.2 预处理1.2.1 数据加载data_load.py中的ACE20原创 2021-09-20 15:14:26 · 1261 阅读 · 6 评论 -
Ace2005英文数据解析过程(事件抽取)
本文是对ace2005-preprocessing代码的解读。数据集介绍英文的数据包括以下文件夹:NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(Usenet Newsgroups/Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两种文件。.sgm文件:原始文本文件,编码格式为UTF-8,每行的结尾使用UNIX-style。原创 2021-08-10 18:45:24 · 1783 阅读 · 3 评论