博多语词义消歧与联合循环电厂效率研究
1. 博多语词义消歧方法
1.1 数据预处理
在进行博多语词义消歧时,语料库中的句子具有高度多样性,因此在应用Word2Vec之前需要进行预处理。预处理架构包括以下三个步骤:
1. 去除标点符号 :为了开发语料库,我们创建单词并使用测试数据进行测试。因此,我们从数据集中消除了诸如(‘,’, ‘।’, ‘(’,‘)’, ‘-’, ‘……’, ‘.’, ‘‘’)等标点符号。
2. 分词 :为了使输入更易于处理,我们使用分词技术将句子分解为单词。例如,“आंनि आदैयाव दुखु मोनदों”(我腿部受伤了)经过分词后的输出将是:“आंनि”,“आदैयाव”,“दुखु”,“मोनदों”。
以下是预处理步骤的结果示例:
| 句子编号 | 输入 | 输出 |
| ---- | ---- | ---- |
| 1 | मादैनि फिसाज्लाया दिनै हाथाइनि डाक्टरनाव थांदोंमोन(Today aunt’s son have visited to dentist) | मादै फिसाज्लाया दिनै हाथाइडाक्टरनाव थांदों(Today aunt son visit dentist) |
| 2 | दिनै गावदांनि बयबो लोगोफोरा गसाइगावहाथाइयाव फैयदोंमोन(Today all the friends of Gaodang have visited the Gossaigaon market)
超级会员免费看
订阅专栏 解锁全文
922

被折叠的 条评论
为什么被折叠?



