机器学习中的字典学习与人工神经网络
1. 字典学习项目介绍
在字典学习相关的项目中,我们将利用英文维基百科语料库来构建文档 - 单词矩阵,并使用潜在语义分析(LSA)技术对矩阵进行分解,从而得到单词表示,也就是词嵌入或词向量。以下是具体的操作步骤:
1. 数据准备与矩阵构建
- 从 http://www.cse.yorku.ca/~hj/enwiki8.txt.zip 下载小数据集 enwiki8。
- 将每一行段落视为一个文档,构建一个文档 - 单词频率矩阵。矩阵采用稀疏格式,包含 enwiki8 中前 10,000 个最频繁的单词以及 WordSim353 数据集中的所有单词。
2. 矩阵分解方法及性能评估
- 标准 SVD 分解 :使用线性代数库中的标准 SVD 程序对稀疏文档 - 单词矩阵进行分解,并将其截断为 k = 20, 50, 100。同时检查 SVD 的运行时间和内存消耗。
- 交替算法分解 :实现交替算法 7.6 对文档 - 单词矩阵进行分解,同样针对 k = 20, 50, 100 进行操作,并检查该方法的运行时间和内存消耗。
- SGD 方法分解 :实现练习 Q7.6 中的随机梯度下降(SGD)算法对矩阵进行分解,针对 k = 20, 50, 100 操作,检查运行时间和内存消耗。
超级会员免费看
订阅专栏 解锁全文
1908

被折叠的 条评论
为什么被折叠?



