33、通过生成的文本理解NLP神经网络及视觉搜索目标推断

通过生成的文本理解NLP神经网络及视觉搜索目标推断

一、NLP神经网络部分

在自然语言处理(NLP)领域,理解神经网络的工作机制是一项重要任务。为了更好地控制训练和测试字符串的复杂性,我们定义了上下文无关文法S。
1. 文法定义与语言特性
- 文法S的规则如下:
- (S -> SP | SZ)
- (SP -> [ADJ] NNP [REL] VBP)
- (SZ -> [ADJ] NNZ [REL] VBZ)
- (REL -> , INT R ,)
- (R -> RP | RZ)
- (RP -> [ADJ] NNP [REL] VBP [ADV])
- (RZ -> [ADJ] NNZ [REL] VBZ [ADV])
- (ADJ -> red | big | spotted | cheerful | secret)
- (ADV -> today | here | there | now | later)
- (INT -> that | which | whom | where | why)
- (NNP -> cats | dogs | magi | geese | cows)
- (NNZ -> cat | dog | magus | goose | cow)
- 我们定义语言S(n)为文法S使用REL符号恰好n次所能生成的字符串集合。每个S(n)语言都是有限的,因此是正则的,并且可以用有限状态机描述。S(0)包含60个字符串,S(n + 1)包含的字符串数量是S(n)的1800倍。
2. 网络训练
- 我们训练了两个长短期记忆网络(LSTM):
- 网络N1:在包含所有S(0)字符串以及从S(1)中随机选取的1000个字符串的样本上进行训练。
- 网络N2:在包含所有S(0)字符串、从S(1)中随机选取的1000个字符串以及从S(2)中随机选取的1000个字符串的样本上进行训练。
- 两个网络都进行了150个训练周期。N1的lenseq参数为80,N2的lenseq参数为100。两个网络都有两个各包含64个单元的LSTM层和一个密集输出层,层间有丢弃层(丢弃率设置为0.2)。
3. 有限状态机的构建
- 随着训练文本的处理,提取的自动机逐渐增长。图3展示了唯一前缀数量(红色)和提取的自动机状态数量(蓝色)与训练文本行数的关系。
- 唯一前缀数量随文本大小稳定增加,而自动机的状态数量增长缓慢,在提取过程结束时接近恒定。最终状态计数:N1为5454个状态,N2为4450个状态。
- 在提取的自动机中,一个转移(从给定源状态)是一个包含字符c和目标状态集合D的对(c, D)。如果D的大小为1,则转移是确定性的。对于N1和N2提取的自动机,分别有96%和89%的转移是确定性的。N2自动机的最大目标集合包含28个状态。
4. 网络行为与提取自动机的比较
- 为了评估提取的自动机对相应神经网络的映射效果,我们生成全新的评估文本。对于N1,生成200个S(1)中的新句子;对于N2,生成200个S(1)中的新句子和400个S(2)中的新句子。
- 语法学习评估 :将评估文本中的lenseq字符序列(前缀)输入网络,观察网络预测的最可能后缀。N1在新文本上完全准确,N2在整个测试语料库中仅错误预测了2个动词。这表明网络生成的最可能后缀并非简单的,并且符合目标语法。
- 状态覆盖评估 :对于评估文本中的每个新前缀,计算网络预测的最可能后缀,并检查该后缀在提取的自动机中是否有对应状态。发现评估文本中不到十分之一的新前缀在N1和N2的自动机中没有对应状态。
- 转移匹配评估 :检查评估文本中连续前缀输入时网络激活的变化是否与提取自动机中的转移匹配。对于N1和N2提取的自动机,只有约3%的连续前缀对不满足此测试。
5. 神经网络的解释
- N1的记忆结构 :N1可以用多级标记状态结构解释。基于通过未标记路径的可达性构建标记状态的级别。有49个0级状态对应主句动词,238个1级状态对应关系从句中的动词。0级状态可根据主句中期望的动词数量分为24个“Z”状态和25个“P”状态。1级状态可进一步根据关系从句中期望的动词以及可从0级状态到达的标记进行划分,产生48个“PZ”状态、89个“ZZ”状态、46个“PP”状态和55个“ZP”状态。
- N2的记忆结构 :N2的情况不同,几乎所有标记状态都属于0级。我们寻找图2中的记忆结构,根据期望的动词三元组数量标记状态,并通过蒙特卡罗图遍历确定这些集合之间的连通性。从每个标记状态生成2000个推进路径,计算“路径密度”。结果图与图2相当接近,但有些边缺失,一些虚假路径可能是由于局部敏感哈希对状态相似性的度量过于宽松造成的。尽管N2在测试数据上非常准确,但我们仍能使用提取的自动机生成N2会错误预测动词数量的句子集合。

二、视觉搜索目标推断部分

在视觉搜索领域,通过眼动追踪预测目标对象是一个重要的研究方向。我们提出了一种新的特征编码方法——深度视觉词袋(Bag of Deep Visual Words,BoDVW)用于搜索目标推断。
1. 研究背景与动机
- 人类的注视行为取决于当前从事的任务,这为预测用户的视觉搜索目标提供了依据。搜索目标推断有助于构建和改进许多领域的智能用户界面,如机器人领域。
- 以往的研究包括使用视觉词袋(Bag of Visual Words,BoVW)方法进行搜索目标分类等。我们在这些研究的基础上,提出了基于预训练卷积神经网络(CNN)的BoDVW方法。
2. 相关工作
- 视觉搜索模型 :Wolfe引入了一种基于用户任务计算激活图的视觉搜索模型。
- 目标相似性研究 :Zelinsky等人表明视觉搜索中注视的对象可能与目标具有相似性,他们使用SIFT特征和局部颜色直方图训练分类器来推断实际目标。
- 算法实现与准确性研究 :Borji等人实现了在类似二维码图像中识别特定3×3子模式的算法,并研究了包含的注视点数量与分类准确性的关系。
- BoVW方法应用 :Sattar等人考虑了开放和封闭世界设置下的搜索目标推断,并使用BoVW方法。
3. 实验方法
- 我们实现并评估了两种基于词袋特征编码概念的搜索目标推断方法:
- 基线方法 :重新实现Sattar等人的BoVW算法。
- 改进方法 :基于AlexNet扩展BoVW方法,使用BoDVW。
- 首先,使用Sattar等人发布的亚马逊图书封面数据集重现他们的结果作为基线。然后,由于基线算法包含了视觉搜索中的所有注视点,包括最后聚焦在目标对象上的注视点,这使得目标估计简化为简单的图像比较任务。因此,我们移除数据集中目标对象的注视点,再次使用两种方法进行实验。

通过以上对NLP神经网络和视觉搜索目标推断的研究,我们在理解神经网络工作机制和提高视觉搜索目标推断准确性方面取得了一定的成果。未来,我们将继续探索如何提高方法的性能,如在NLP中加强自动机的确定性,在视觉搜索中进一步优化特征编码方法。

通过生成的文本理解NLP神经网络及视觉搜索目标推断

三、实验结果与分析
  1. NLP神经网络实验结果
    • 自动机状态与转移特性 :从构建有限状态机的实验结果来看,N1和N2提取的自动机在状态数量和转移确定性上有明显差异。N1有5454个状态,96%的转移是确定性的;N2有4450个状态,89%的转移是确定性的。这表明不同的训练数据对自动机的结构产生了影响。N1训练数据相对简单(仅包含S(0)和S(1)的部分数据),自动机的确定性更高,可能意味着网络在这种简单数据下学习到的模式更加规则和稳定。而N2训练数据更复杂(包含S(0)、S(1)和S(2)的部分数据),自动机的确定性稍低,可能是因为复杂数据带来了更多的不确定性和变化。
    • 网络与自动机匹配情况 :在比较网络行为与提取自动机的实验中,N1和N2在新文本上都有较好的表现。N1完全准确,N2仅错误预测2个动词,说明两个网络都较好地学习了目标语法。同时,评估文本中不到十分之一的新前缀在自动机中没有对应状态,且只有约3%的连续前缀对不满足转移匹配测试,这表明提取的自动机能够很好地覆盖网络的行为,对网络有较好的映射效果。
    • 记忆结构分析 :对于N1和N2的记忆结构分析,揭示了它们在处理不同复杂度数据时的差异。N1的多级标记状态结构清晰,能够很好地解释网络对名词 - 动词一致性的跟踪。而N2由于数据更复杂,大部分标记状态属于0级,需要通过蒙特卡罗图遍历等方法来寻找记忆结构。虽然结果图与理论图接近,但存在一些缺失边和虚假路径,这可能是由于数据复杂性和状态相似性度量方法的局限性导致的。不过,我们仍能利用自动机生成N2会出错的句子集合,这为进一步改进网络提供了方向。
  2. 视觉搜索目标推断实验结果
    • 包含所有注视点的实验结果 :在使用包含所有注视点的亚马逊图书封面数据集进行实验时,我们重新实现的BoVW基线方法和基于AlexNet的BoDVW方法都能进行搜索目标推断。但基线方法由于包含了目标对象的注视点,使得目标估计简化为图像比较任务。
    • 移除目标注视点的实验结果 :当移除数据集中目标对象的注视点后,再次进行实验。结果显示,我们提出的BoDVW方法在这种情况下表现更优,能够更好地利用非目标对象的注视信息进行目标推断。这表明BoDVW方法在更具挑战性的情况下,即不能依赖目标对象的直接注视信息时,具有更强的鲁棒性和有效性。
四、技术点分析
  1. NLP神经网络技术点
    • 上下文无关文法的作用 :定义上下文无关文法S是整个NLP实验的基础。它通过明确的规则生成不同复杂度的语言S(n),使得我们能够控制训练和测试数据的复杂性。这种规则化的文法定义有助于我们研究神经网络在不同复杂度语言上的学习能力,以及提取的自动机对不同语言的表示能力。
    • LSTM网络结构的选择 :选择LSTM网络进行训练是因为它能够处理序列数据,并且在处理长序列时能够有效避免梯度消失问题。两个网络都采用了两个各包含64个单元的LSTM层和一个密集输出层,层间设置丢弃层(丢弃率为0.2),这种结构能够在一定程度上防止过拟合,提高网络的泛化能力。
    • 自动机提取与分析方法 :通过分析训练文本提取自动机,并研究自动机的状态数量、转移确定性、状态覆盖和转移匹配等特性,我们能够深入了解神经网络的内部工作机制。自动机作为一种可视化和可解释的模型,为理解神经网络的决策过程提供了重要的工具。
    • 记忆结构的探索 :寻找网络的记忆结构,如N1的多级标记状态结构和N2基于蒙特卡罗图遍历的记忆结构,有助于解释网络如何跟踪名词 - 动词一致性等语法特征。这种记忆结构的分析为理解神经网络的学习机制和改进网络性能提供了理论支持。
  2. 视觉搜索目标推断技术点
    • 特征编码方法的创新 :提出的BoDVW特征编码方法是基于预训练的CNN(AlexNet),与传统的BoVW方法相比,它能够提取更丰富、更具代表性的视觉特征。CNN在图像特征提取方面具有强大的能力,通过将其应用于视觉搜索目标推断,能够提高目标推断的准确性。
    • 数据集处理与实验设计 :对数据集进行处理,移除目标对象的注视点,能够更真实地模拟实际的视觉搜索场景,避免目标估计简化为图像比较任务。同时,通过与基线方法(BoVW)进行对比实验,能够清晰地评估BoDVW方法的优势和改进效果。
五、总结与展望
  1. 研究成果总结
    • 在NLP神经网络方面,我们成功地从训练的LSTM网络中提取了有限状态机,并证明了提取的自动机能够很好地覆盖网络的行为,为理解神经网络的工作机制提供了有效的方法。同时,对网络的记忆结构进行了分析,解释了网络如何跟踪名词 - 动词一致性等语法特征。
    • 在视觉搜索目标推断方面,我们提出的BoDVW特征编码方法在移除目标注视点的情况下,能够更好地利用非目标对象的注视信息进行目标推断,优于传统的BoVW方法。
  2. 未来研究方向
    • NLP领域 :目前提取的自动机存在一些非确定性转移,未来我们将研究如何加强自动机的确定性,例如改进状态相似性度量方法,减少虚假路径的出现。同时,探索在更复杂的语言数据上应用该方法,进一步验证其有效性和扩展性。
    • 视觉搜索领域 :继续优化BoDVW特征编码方法,例如尝试不同的预训练CNN模型,或者结合其他特征提取方法,提高目标推断的准确性。此外,研究如何将该方法应用于更复杂的视觉场景,如动态场景中的目标推断。

通过本次研究,我们在NLP神经网络理解和视觉搜索目标推断方面取得了一定的进展,但仍有许多问题需要进一步探索和解决。未来的研究将致力于提高方法的性能和适用性,为相关领域的发展做出更大的贡献。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(NLP神经网络研究):::process --> B(构建自动机):::process
    A --> C(网络与自动机比较):::process
    A --> D(记忆结构分析):::process
    B --> B1(状态数量分析):::process
    B --> B2(转移确定性分析):::process
    C --> C1(语法学习评估):::process
    C --> C2(状态覆盖评估):::process
    C --> C3(转移匹配评估):::process
    D --> D1(N1记忆结构):::process
    D --> D2(N2记忆结构):::process

    E(视觉搜索目标推断研究):::process --> F(提出BoDVW方法):::process
    E --> G(实验设计与数据集处理):::process
    F --> F1(特征编码创新):::process
    G --> G1(包含所有注视点实验):::process
    G --> G2(移除目标注视点实验):::process

以下是一个总结两个研究方向关键技术点的表格:
| 研究方向 | 关键技术点 | 作用 |
| ---- | ---- | ---- |
| NLP神经网络 | 上下文无关文法定义 | 控制训练和测试数据复杂性,研究网络学习能力 |
| | LSTM网络结构 | 处理序列数据,避免梯度消失,提高泛化能力 |
| | 自动机提取与分析 | 覆盖网络行为,解释网络工作机制 |
| | 记忆结构分析 | 解释网络对语法特征的跟踪 |
| 视觉搜索目标推断 | BoDVW特征编码 | 提取更丰富视觉特征,提高目标推断准确性 |
| | 数据集处理与实验设计 | 模拟真实场景,评估方法优势 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值