语料库转网络
根据给定的语料库创建网络。网络节点可以是文档或单词(n-grams)。
输入
- 语料库:文档集合。
输出
- 网络:从输入语料库生成的网络。
- 节点数据:节点的附加数据。
语料库转网络 可以基于文档或单词(n-grams)操作。
- 若节点为文档,则当两个文档共享的单词(n-grams)数量至少达到 阈值 时,它们之间会有一条边。
- 若节点为单词(n-grams),则当两个单词在窗口(大小为 (2 \times \text{窗口大小} + 1))内共同出现的次数至少达到 阈值 时,它们之间会有一条边。只有频率高于 频率阈值 的单词才会被作为节点包含。这是一种 词共现网络。
- 小部件参数:
- 节点类型:控制节点是文档还是单词(n-grams