轻随机二值化与词性类别归纳中的表面形态特征研究
1. 轻随机二值化(LSB)概述
在介绍的实验中,将每个文本表示为与 41,782 个特征相关联的向量的线性组合。这种“挖掘微小细节”的能力,使得该方法在仅需检索一篇相关文档的场景中能获得更高的精度。不过,不能简单地说 LSB 比语义哈希(Semantic Hashing)“表现更好”,因为语义哈希的目标并非解决最近邻搜索问题,而是在更详尽的分类场景中产生稳健的结果,所以需要将 LSB 与其他方法进行比较。
此外,对反射随机索引(RRI)参数进行更高级的调整可能会提高性能,研究初始随机向量加权策略的影响也是一个可能的研究方向。从相关结果来看,当 LSB 的随机索引(RI)组件涉及多次迭代,即具有“反射性”时,似乎能取得更好的结果。
该方法值得进一步研究,原因如下:
- 其降维组件 RRI 比潜在语义分析(LSA)成本更低,且更易于增量添加新数据。
- 它与局部敏感哈希(LSH)类似,能将文本转换为仅 16 个 ASCII 字符的简洁哈希,同时保留原文的相似性和差异性关系。
- 算法易于理解、实现简单,查询执行速度快。因此,将这种二值化方法标记为不仅是随机的,而且是轻量级的。
2. 词性归纳(POS-i)简介
词性归纳是一个建构主义过程,旨在找到一种机制,为所研究语言中的任何单词赋予词性类别(如“动词”“名词”“形容词”等)的成员信息。由于句法类别信息是儿童在学习更复杂语言结构之前必须掌握的基本知识,所以词性归纳通常被视为更复杂的语法归纳和语言习得过程的第一步。
尽管几十年前就提出了第一批词性归纳的计算模型,但无监督词性标注问题仍然吸引着众多
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



