利用支持向量机进行恐怖主义信息提取
1 背景与动机
自 2001 年 9 月 11 日的悲剧事件发生后,学术界被呼吁为国家(甚至可能是国际)安全相关研究做出贡献。国家科学基金会的一项重要使命,就是开展信息技术、组织研究和安全相关公共政策等领域的中长期国家安全研究。
执法、刑事分析和情报界面临着与医学和生物学研究类似的挑战,即信息过载,但同时也有创新的巨大机遇。就像“医学信息学”和“生物信息学”一样,迫切需要发展“情报与安全信息学”这一科学,它通过综合技术、组织和政策的方法,研究先进信息技术、系统、算法和数据库在国家安全相关应用中的使用和开发。
1.1 信息提取的重要性与挑战
信息提取(IE)在许多应用中都至关重要,如网络情报、搜索引擎和文本理解等。大多数 IE 系统依赖于一组提取模式,每个提取模式基于自然语言句子中所需实体位置的句法和/或语义约束来定义。这些系统还提供一组模式模板,以确定要考虑的句法和语义约束类型。
然而,这种模式模板限制了 IE 系统可以学习的提取模式的种类。例如,“IBM acquired ⟨direct - object⟩”是一个非常适合提取公司信息的提取模式,但无法通过 AutoSlog 的 13 个模式模板中的任何一个实例化。由于很难为任何给定领域推导出一套通用的标准模式模板,因此不依赖模板的 IE 方法变得十分必要。
1.2 支持向量机在信息提取中的应用
为了解决这些问题,本文提出使用支持向量机(SVM)进行信息提取。SVM 由 Vapnik 提出,已广泛应用于图像处理和分类问题。SVM 技术能够找到一个最佳表面,将正例和反例分开,正例和反例之间的最大间隔由法向量
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



