词向量训练skipgram的python实现

最新推荐文章于 2024-04-09 17:14:16 发布

谁是momo子

最新推荐文章于 2024-04-09 17:14:16 发布

阅读量3.8k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：词向量深度学习 nlp自然语言处理文章标签： skipgram自己实现深度学习词向量 word2vec

本文链接：https://blog.youkuaiyun.com/manmanxiaowugun/article/details/90402332

本文记录了使用Python实现skipgram模型的过程，包括数据预处理、训练样本构建、模型构建等步骤，并探讨了负采样在训练速度上的优势。通过训练，展示了验证词向量效果的方法，虽然由于时间复杂度高和参数调整不足导致效果有限，但对理解skipgram模型和负采样有帮助。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

skipgram的原理及公式推倒就不详细说了，主要记录一下第一个正向传播和反向传播都自己写的神经网络，也终于体验了一把负采样对于词向量训练速度的惊人提升，感人！虽然最终的时间复杂度依然较高，不过我正在研究同样使用python的gensim为啥这么快的原因！

(明天有时间会把)数据和代码放在本人的github里，写的比较搓，待改进...

1.工具介绍

python： 3.6

电脑：mac本地跑

数据集： text8的英文语料

2. 数据预处理

替换文本中特殊符号
将文本分词
去除文本中的低频词

def preprocess(text, freq=5):
    '''
    对文本进行预处理

    参数
    ---
    text: 文本数据
    freq: 词频阈值
    '''
    # 替换文本中特殊符号
    text = text.lower()
    text = text.replace('.', ' <PERIOD> ')
    text = text.replace(',', ' <COMMA> ')
    text = text.replace('"', ' <QUOTATION_MARK> ')
    text = text.replace(';', ' <SEMICOLON> ')
    text = text.replace('!', ' <EXCLAMATION_MARK> ')
    text = text.replace('?', ' <QUESTION_MARK> ')
    text = text.replace('(', ' <LEFT_PAREN> ')
    text = text.replace(')', ' <RIGHT_PAREN> ')
    text = text.replace('--', ' <HYPHENS> ')
    text = text.replace('?', ' <QUESTION_MARK> ')
    text = text.replace(':', ' <COLON> ')
    words = text.split()

    # 删除低频词，减少噪音影响
    word_counts = Counter(words)
    trimmed_words = [word for word in words if word_counts[word] > freq]

    return trimmed_words