2020.7.13 筛选tagged后的语料excel中的动名词搭配
本文仅作为个人语料处理日志,若有错误请各位看官轻喷。欢迎交流o( ̄▽ ̄)ブ
原本想对tagged后的所有exel文件利用python进行批量处理、高亮动词字段,但是转念一想,反正都需要人工阅读,才能准确找到该动词对应/支配的名词,那就边读便手动高亮算了。
1. 高亮动词
也就是非常白痴的操作,筛选-排序,高亮所有的Verb;
清楚筛选条件之后就得到正常的、可读排列顺序了:
2. 阅读文本,并对动名词搭配进行分类
大概的思路为:
另外为了便于阅读,还加上了该动名词搭配所在的原文、梳理后(删去各种修饰词,只留主干部分)的文本结构、动词原形和句式(主动or被动)。
因此最终得到的一串字段为:
原文
梳理后
Genus 主动/被动
SUBJEKT
VERB下分vi/vt
- vt 直接跟宾语
- AKK
- DAT
- vi 无宾语/跟介词短语
- 无宾语
- 跟介词
- PREP原型
- prep+AKK
- prep+DAT
3. 意料之外的奇葩的问题
- 可能因为在tagging阶段没有好好写代码,导致现在的exel有些地方阅读起来不通畅,像是漏掉了一些单词……
- 不定式中的动名词搭配分析有点棘手,由于从杨老师那儿拿到的文章基本都是在德中国留学生的课程论文,文邹邹,句子还长,不大能分辨出动词的主语和宾语是谁,有时候用一些人称代词指代,就更找不着北了。
今天的记录就先这样吧,接着人工分析去了。
(导师说一天能分析十个文本啊我puei,十天一个文本还差不多#手动白眼翻上天)