记录解析Tencent_AILab_ChineseEmbedding.txt文件时的一个坑

本文介绍了一种从腾讯提供的大规模词向量文件中加载词向量的方法,特别关注于处理文件中的特殊错误,并将词向量转换为numpy数组,以便于在机器学习任务中使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

腾讯提供的词向量下载地址

问题描述

这个文件很大,解压后将近16G,但是电脑配置有限,而且我觉得也不需要这么多词,所以还是自己写程序来加载词向量吧,于是有了下面这段

import numpy as np
from tqdm import tqdm
w = []
v = []
id2word = {}
word2id = {}
with open('Tencent_AILab_ChineseEmbedding.txt', 'r', encoding='utf-8') as f: # 词向量的维度为200维
    _ = f.readline()
    for i in tqdm(range(1000000)): # 取1000000个词
        word = f.readline()
        v.append([float(_) for _ in word.split()[1:]])
        id2word[len(id2word)+1] = word.split()[0]
word2id = {i: j for j, i in id2word.items()}

然后就是将list转成numpy数据了,可是,如果你这么做了,那么恭喜你,下面是错误的
word2vec = np.array(v, dtype=np.float32)
在执行上面的类型转换前,需要先执行下面这行段,理由是词向量文件中有一个空格,字符串的split方法会默认不要这个空格, 导致v的第414个元素出错了

if len(v[413]) != 200:
    print('debugger v')
    v[413].insert(0, -0.073052)
if id2word[414] == '-0.073052':
    print('debugger id2word')
    id2word[414] = ' '
if '-0.073052' in word2id.keys():
    print('debugger word2id')
    word2id.pop('-0.073052')
    word2id[' '] = 414
完整代码
import numpy as np
from tqdm import tqdm
w = []
v = []
id2word = {}
word2id = {}
with open('Tencent_AILab_ChineseEmbedding.txt', 'r', encoding='utf-8') as f: # 词向量的维度为200维
    _ = f.readline()
    for i in tqdm(range(1000000)): # 取1000000个词
        word = f.readline()
        v.append([float(_) for _ in word.split()[1:]])
        id2word[len(id2word)+1] = word.split()[0]
word2id = {i: j for j, i in id2word.items()}

if len(v[413]) != 200:
    print('debugger v')
    v[413].insert(0, -0.073052)
if id2word[414] == '-0.073052':
    print('debugger id2word')
    id2word[414] = ' '
if '-0.073052' in word2id.keys():
    print('debugger word2id')
    word2id.pop('-0.073052')
    word2id[' '] = 414
word2vec = np.array(v, dtype=np.float32)
word_size = word2vec.shape[1]
word2vec = np.concatenate([np.zeros((1, word_size)), word2vec])
<think>好的,用户之前询问了如何在Neovim + LazyVim中配置C++代码补全,现在他们提到在lua/config目录下没有lsp.lua文件。我需要先回想之前的对话,确认之前给出的配置建议是否有提到这个文件的位置。 用户当前的问题是关于目录结构中的文件缺失,可能他们在按照指南操作时遇到了路径问题。我需要检查之前提供的步骤,看是否有误导用户创建错误的文件路径。比如,在之前的回答中,我可能让用户创建了~/.config/nvim/lua/plugins/lsp.lua,而用户现在检查的是lua/config目录下的文件,这可能是个误解。 接下来,我需要确定LazyVim的默认配置结构。LazyVim通常将用户的自定义配置放在lua/plugins目录下,而默认的配置可能在config文件夹中。但用户可能在尝试添加配置时混淆了这两个目录的位置。 用户可能的问题在于他们按照之前的指导创建了lua/plugins/lsp.lua,但指南中的某个部分可能提到了lua/config/lsp.lua,导致他们困惑。或者,他们可能参考了其他资料,导致路径混淆。 我需要解释清楚LazyVim的配置结构,说明正确的文件位置应该是lua/plugins下的文件,而不是config目录。同时,检查是否需要用户自己创建config目录,或者是否需要调整配置路径。 另外,用户可能没有正确创建文件或目录,导致Neovim无法加载配置。需要指导他们如何正确创建目录和文件,并确认路径的正确性。 还需要考虑用户可能对Lua模块的加载机制不熟悉,比如使用require时的路径问题,或者文件命名是否正确(比如lsp.lua是否正确定义了模块)。 最后,确保回答清晰,分步骤说明如何解决文件缺失的问题,并验证配置是否正确加载。可能还需要提醒用户重启Neovim或运行:Lazy sync来重新加载配置。</think>以下是针对LazyVim配置目录结构的详细说明和解决方案: --- ### 问题原因分析 LazyVim的默认配置结构为: ``` ~/.config/nvim/ ├── lua/ │ ├── config/ -- *核心配置目录(通常不需要手动修改)* │ ├── plugins/ -- **用户插件配置主目录** │ └── plugin/ -- Vimscript插件配置(可选) ``` **关键点**:用户自定义的LSP配置应放在 `plugins/` 目录下,`config/` 目录由LazyVim框架自身管理 --- ### 正确操作步骤 #### 1. 创建必要文件 ```bash # 创建插件配置目录(如果不存在) mkdir -p ~/.config/nvim/lua/plugins # 新建LSP配置文件 nvim ~/.config/nvim/lua/plugins/lsp.lua ``` #### 2. 配置内容示例 ```lua -- 文件位置:~/.config/nvim/lua/plugins/lsp.lua return { { "neovim/nvim-lspconfig", opts = { servers = { clangd = { capabilities = { offsetEncoding = "utf-8", }, cmd = { "clangd", "--background-index", "--clang-tidy", "--header-insertion=never", }, }, }, }, }, -- 可选:添加clangd扩展插件 { "p00f/clangd_extensions.nvim", config = function() require("clangd_extensions").setup() end, } } ``` #### 3. 生效配置 1. 保存文件后执行: ```vim :Lazy sync -- 重新加载插件配置 :LspRestart -- 重启LSP服务 ``` --- ### 验证配置成功 1. 执行诊断命令: ```vim :checkhealth lspconfig -- 应显示clangd可用 :LspInfo -- 查看当前文件LSP连接状态 ``` 2. 预期现象: - 打开`.cpp`文件时状态栏显示`clangd` - 输入`std::vector`能触发补全建议 - 支持`gd`跳转到定义 --- ### 目录结构最终形态 ``` ~/.config/nvim/ └── lua/ └── plugins/ ├── lsp.lua -- 你新建的配置文件 ├── coding.lua -- 其他插件配置 └── ui.lua -- 界面相关配置 ``` --- ### 常见问题排查 1. **配置未生效**: - 确认文件路径和名称正确 - 检查`:Lazy log`是否有加载错误 2. **缺少依赖项**: ```bash # 确认clangd已安装 clangd --version # 输出应包含:clangd version 15.0.0+ ``` 3. **项目级配置**: - 确保在项目根目录存在`compile_commands.json` - 可通过`bear -- make`生成(非CMake项目) --- 通过以上配置,您无需修改`config/`目录即可实现C++代码补全功能。LazyVim的模块化设计使得所有用户自定义配置都集中在`plugins/`目录下,保持配置的整洁性和可维护性。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值