历史词向量工具集 histwords 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00318/article/details/147037861

历史词向量工具集 histwords 使用教程

histwords Collection of tools for building diachronic/historical word vectors 项目地址: https://gitcode.com/gh_mirrors/hi/histwords

1. 项目目录结构及介绍

histwords 项目是一个用于构建历史词向量的工具集，其目录结构如下：

histwords/
├── coha/                   # 用于处理 COHA 语料库的代码
├── googlengram/            # 用于处理谷歌 n-gram 数据的代码
├── representations/        # 提供对历史词向量的高级接口，基于 Omer Levy 的 hyperwords 包
├── sgns/                   # 包含修改后的 Google word2vec 代码
├── statutils/              # 包含常用的统计任务辅助代码
├── vecanalysis/            # 包含评估和分析历史词向量的代码
├── example.py              # 展示如何计算两个词在不同时间点的相似度系列
├── example.sh              # 示例脚本，展示如何下载和使用嵌入向量
├── ioutils.py              # 输入输出工具代码
├── README.md               # 项目说明文件
├── license                 # 许可证文件
├── requirements.txt        # 项目依赖文件
├── setup.py                # 项目设置文件
└── viz/                    # 可视化代码