2020.7.13 筛选tagged后的语料excel中的动名词搭配

本文记录了作者处理tagged语料的过程,包括使用Excel筛选高亮动词,阅读文本并分类动名词搭配,以及遇到的意料之外的问题。通过手动高亮和文本梳理,对动词支配的名词进行分析,主要挑战在于不定式中动名词搭配的识别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文仅作为个人语料处理日志,若有错误请各位看官轻喷。欢迎交流o( ̄▽ ̄)ブ

原本想对tagged后的所有exel文件利用python进行批量处理、高亮动词字段,但是转念一想,反正都需要人工阅读,才能准确找到该动词对应/支配的名词,那就边读便手动高亮算了。

1. 高亮动词

也就是非常白痴的操作,筛选-排序,高亮所有的Verb;
所有的动词被筛选了出来
清楚筛选条件之后就得到正常的、可读排列顺序了:
在这里插入图片描述

2. 阅读文本,并对动名词搭配进行分类

大概的思路为:


另外为了便于阅读,还加上了该动名词搭配所在的原文、梳理后(删去各种修饰词,只留主干部分)的文本结构、动词原形和句式(主动or被动)。

因此最终得到的一串字段为:
原文
梳理后
Genus 主动/被动
SUBJEKT
VERB下分vi/vt

  • vt 直接跟宾语
    • AKK
    • DAT
  • vi 无宾语/跟介词短语
    • 无宾语
    • 跟介词
      • PREP原型
      • prep+AKK
      • prep+DAT

在这里插入图片描述

3. 意料之外的奇葩的问题

  1. 可能因为在tagging阶段没有好好写代码,导致现在的exel有些地方阅读起来不通畅,像是漏掉了一些单词……
  2. 不定式中的动名词搭配分析有点棘手,由于从杨老师那儿拿到的文章基本都是在德中国留学生的课程论文,文邹邹,句子还长,不大能分辨出动词的主语和宾语是谁,有时候用一些人称代词指代,就更找不着北了。

今天的记录就先这样吧,接着人工分析去了。
(导师说一天能分析十个文本啊我puei,十天一个文本还差不多#手动白眼翻上天)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值