文本属性解析:从微观到宏观的全面洞察
1. 文本微观属性
1.1 词汇与句子歧义
词汇歧义常可通过考虑句子其他成分的含义来解决。除了未解决的词汇歧义外,句子意义的歧义可能源于结构歧义。例如,句子 “I saw the man with the binoculars” 就存在结构上的歧义。而当结合上下文句子的含义时,歧义句的意思往往能够得到明确。
1.2 从句
复杂句子可以由较小的句子构建而成,允许一个句子包含另一个句子作为从句。常见的形式有作为名词短语的嵌入式句子(如 “To go to jail …”)和名词短语的关系从句(如 “… who sentenced the man”)。前者需要对句子结构进行细微修改以将短语标记为名词短语,而后者通常由关系代词(如 “who”、“that”)引导。关系从句与常规句子结构相同,只是缺少一个名词短语(如主语位置、宾语位置或介词宾语)。在话题结构方面,主句通常突出话题,而从句则通常弱化话题。
1.3 标记
书面文本中使用特殊符号进行标记的做法已经发展了几个世纪。这些标记或符号有助于读者正确分析文本,主要有三种功能:
1. 边界标记 :例如,标点符号用于划分句子或从句,电子存储文本中的空白字符用于分隔单词。
2. 状态标记 :指示言语功能,如问号表示问题,引号表示引用的话语。
3. 关系标记 :特殊符号表示链接、插入和省略(如连字符、括号、撇号)。
此外,当前文本还包含编码特定概念的字符,如美元符号、百分比字符
超级会员免费看
订阅专栏 解锁全文
684

被折叠的 条评论
为什么被折叠?



