- 博客(83)
- 资源 (2)
- 问答 (3)
- 收藏
- 关注
原创 WordPiece是如何基于词表对文本进行切分的
本文从PaddleNLP源码入手,分析WordPiece是如何基于词表对输入的文本进行子词切分的。为了更好地阅读本文,你需要知道子词切分与tokenize相关的知识,可以参考我之前的文章:tokenizer简介tokenizers:BPE算法WordPiece采用了一种贪心的最长匹配搜索算法来将原始文本切分成子词。为简单起见,假设词表中只有三个子词:['un', 'aff', 'able'],我们要切分的单词是“unaffable”。具体做法是,初始化两个位置变量(start和end,分别表示
2021-12-31 08:57:39
1816
原创 【python】通过信号机制对子进程进行控制
本文简要分析了linux操作系统中的信号处理机制以及它们在python中的实现。重点讨论了如何利用python进行多进程编程时通过`signal`来避免产生僵尸进程和孤儿进程。
2021-11-19 15:38:35
2044
原创 关于使用PaddleNLP加载训练好的模型进行NER时的弯路
介绍了利用PaddleNLP加载已经训练好的模型进行命名实体识别时所踩得一些坑
2021-10-11 19:34:41
3289
2
原创 在python中如何只记录目标文件输出的日志
python的标准库logging提供了非常强大的日志记录功能,合适的日志输出对于调试代码可以提供非常大的帮助。这个库的基本用法非常的简单,这里不做赘述,而是记录一种稍微复杂的用法。1、背景在项目开发的过程中,难免要引入第三方库,这些第三方库中大多也会用logging模块来进行日志记录。如果不加任何处理,那么很可能我们自己项目的日志中会夹杂许多第三方库的日志——而这些信息是我们不想要的,因此,要想一个办法,来阻止这些额外日志的输出。2、利用logging.Filter来进行过滤通过Filter的名字
2021-09-12 17:16:09
941
原创 python开发备忘录
这一篇博客的内容主要是记录在python3开发过程中遇到的一些环境依赖、版本选择等问题及对应的解决方案。文章目录1、cx_Oracle的安装与使用1、cx_Oracle的安装与使用在python中,通过cx_Oracle模块,我们可以与Oracle数据库进行交互。值得注意的是,cx_Oracle是通过加载Oracle客户端库文件以实现和Oracle数据库的通信(The cx_Oracle module loads Oracle Client libraries which communicate .
2021-06-23 14:45:53
502
NLP-历史与现状综述.pdf
2021-11-22
docker宿主机无法访问容器内启动的python服务问题
2020-03-25
如何实现python的多个子进程对同一个变量的操作,并保存这种操作的结果?
2018-12-29
如何高效地随机获取MySQL中的某些行?
2018-12-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人