利用非结构化信息进行推特用户性别分类及词汇本体扩展实验
1. 词汇本体扩展实验
在词汇本体扩展方面,进行了相关实验。以下是一些词汇及其释义:
- 正确释义词汇 :
- “sólido”:稳固就位,不摇晃。
- “truculento”:非常令人不快。
- 错误变体词汇 :
- “carraceno”:非常小。
- “eduzir”:做减法。
- “sisudez”:一种庄重和高贵的感觉。
- 歧义变体词汇 :
- “bom”:达到完全的程度或全部、整个范围。
- “aquentar”:特别是通过欢呼和呼喊来激励或鼓励。
在第二次实验中,按形态类别对正确、错误和歧义变体的分布如下表所示:
| 形态类别 | 名词 | 形容词 | 动词 | 副词 | 总计 |
| — | — | — | — | — | — |
| 正确 | 56 (62 %) | 28 (56 %) | 31 (52 %) | 0 | 115 (58 %) |
| 错误 | 28 (31 %) | 19 (38 %) | 27 (45 %) | 0 | 74 (37 %) |
| 歧义 | 6 (7 %) | 3 (6 %) | 2 (3 %) | 0 | 11 (5 %) |
| 总计 | 90 | 50 | 60 | 0 | 200 |
这些实验虽使用的方法并非全新,但表明这些方法能获得可接受的准确性。即使是使用非常嘈杂且古老(1913 年)词典的第二
超级会员免费看
订阅专栏 解锁全文

427

被折叠的 条评论
为什么被折叠?



