python 字典快速匹配

本文介绍了一种利用Pandas库进行高效字典匹配的方法,相较于传统的Python字典匹配方式,该方法能显著提高处理速度。通过将词汇字典和文档分词转化为DataFrame,并运用merge函数进行内连接,实现了快速查找词汇对应ID的功能。
部署运行你感兴趣的模型镜像

有时候我们在生成模型的时候,会出现在一个好 几十万 的字典 dict 里面匹配数据,但往往这种方法造成的时间损耗是巨大的。

比如以下代码:

# word_index 就是有几十万数据的词汇字典
# post 就是分词后的文档
for w in post.split(" "):
    if w in word_index.keys():
        word_model.append(word_index[w])

这种方法往往是非常耗时的,但我们可以使用 pandas 模块实现这个快速匹配的问题,示例如下

# -*- coding:utf-8 -*-
import pandas as pd
# 词汇字典
ss = {"a":1,"b":2,"c":3,"d":4,"e":5}

# 文档分词
uu = ["a","c","f","d","b","h","e"]

# 将文档分词转换成 DF
article = pd.DataFrame({"word":uu})

# 将词汇字典也转换成 DF
wordid = pd.DataFrame({"word":[s[0] for s in ss.items()],"id":[s[1] for s in ss.items()]})
# 对字典设置索引
wordid.set_index("word")

# 进行匹配
df_inner = pd.merge(article,wordid,how = "inner")
print list(df_inner["id"])

更多的关于 pandas 的用法:https://blog.youkuaiyun.com/liufang0001/article/details/77856255

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值