
nlp
文章平均质量分 87
Macanv
脚踏实地,每天进步一点点
展开
-
高维空间向量搜索---腾讯词向量相似检索实践
高维空间向量搜索—腾讯词向量相似检索实践最近工作上遇到一些语料OOV问题,想到可以使用同义词进行替换来弥补部分OOV带来的问题,于是就有了本篇博客的相关实验。最简单的可以使用gemsim在语料库上训练一个word2vec,然后使用gemsim自带的相似度API直接进行计算,这种方法是最简单的(不考虑内存消耗,计算时间的情况下)。但是自己的语料本身就有OOV问题,训练后,估计效果也不行,于是想到使用腾讯的语料,网上有一篇使用腾讯语料计算相似词的文章,但是只能使用公众号来请求,没有给出代码。本文记录一下使原创 2020-08-19 09:59:58 · 1335 阅读 · 1 评论 -
从BERT迁移到ALBERT
从BERT迁移到ALBERT本文简单记录如何将使用BERT fine tuning 的代码转化为使用Albert进行训练,改动真的不要太多。我使用的是谷歌官方的Albert https://github.com/google-research/ALBERT如果你原来已经有BERT的fine tuning的代码,那么你只需要修改四个地方,我这里以https://github.com/macan...原创 2020-02-11 13:03:53 · 3542 阅读 · 16 评论 -
Fast Trasnformer 加速BERT推理实践
Fast Trasnformer 加速BERT推理实践上篇BERT做NER的文章很受大家欢迎,其中不乏童鞋询问我如何加速BERT方法的推理速度,本文就对此进行简单的描述,主要是基于NVIDIA开源的Fast Transformer的一个实践。本文的主要内容如下:Fast Transoformer文本分类加速实践其他可以加速推理的方法小调研1. Fast Trasnformer...原创 2020-02-09 14:25:31 · 4333 阅读 · 1 评论 -
清华大学THUCNews数据集处理方法
清华大学THUCNews数据集处理方法数据集下载地址:http://thuctc.thunlp.org/本文主要记录了清华的THUCNEWS数据集用于文本分类的数据预处理方法,比较简单直接上代码#! usr/bin/env python3# -*- coding:utf-8 -*-""" 清华大学的文本分类数据集的处理 @Author:MaCan @Time:2019/9/17 ...原创 2019-09-17 15:18:48 · 7737 阅读 · 1 评论 -
基于BERT预训练的中文命名实体识别TensorFlow实现
BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning使用谷歌的BERT模型在BLSTM-CRF模型上进行预训练用于中文命名实体识别的Tensorflow代码’代码已经托管到GitHub 代码传送门 大家可以去clone 下来亲自体验一下!g...原创 2019-01-03 11:58:25 · 143359 阅读 · 467 评论 -
Spark 学习笔记 TF-IDF
spark 计算TF-IDF的多种方法TF-IDF相关概念请移步百度百科下面记录自己在做关键词抽取的时候,计算TF-IDF时候的经历,使用spark不多。 下面的始终方法我都试过,最后选了第四个方案,在500W篇新闻中,计算2-gram的IDF,用时5个小时,虽然时间用的很长,但是最终是可以跑起来。1. 基于mllib.HashingTF这个方法几乎可以直接copy 官网中的...原创 2018-08-24 14:19:28 · 1630 阅读 · 0 评论 -
文本分类---逻辑回归(1)
基于sklearn的文本分类—逻辑回归(1) 本文是文本分类的第一篇,记录使用逻辑回归进行文本分类任务,数据集下载地址:http://thuctc.thunlp.org/ 文本分类的主要内容如下: - 1.基于逻辑回归的文本分类 - 2.基于朴素贝叶斯的文本分类 - 3.基于SVM的文本分类 - 4.基于卷积神经网络词级别的文本分原创 2018-01-03 17:40:04 · 21248 阅读 · 32 评论 -
文本分类---朴素贝叶斯(2)
基于sklearn的文本分类—朴素贝叶斯(2) 本文是文本分类的第二篇,记录使用朴素贝叶斯进行文本分类任务,数据集下载地址:http://thuctc.thunlp.org/ 文本分类的主要内容如下: - 1.基于逻辑回归的文本分类 - 2.基于朴素贝叶斯的文本分类 - 3.使用LDA进行文档降维以及特征选择 - 4.基于SVM的原创 2018-01-03 18:04:00 · 7003 阅读 · 7 评论 -
neo4j 大量数据的批量导入
这篇文章 将记录使用neo4j-import 工具进行大批量数据快速导入neo4j数据库中的具体过程。Super Fast Batch Importer For Huge Datasets Into Neo4j Graph Database原创 2017-10-20 15:32:46 · 21554 阅读 · 11 评论 -
sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法
在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:x = ['i love you', 'i hate you', 'i']vect = CountVe原创 2017-11-13 19:54:38 · 2945 阅读 · 0 评论 -
使用server版的哈工大LTP进行NLP任务(Java实现)
哈工大的LTP可以说是开源中评测得分相对高的(比HanLP, jieba,ansj等都要好很多) 本篇文章记录了使用Java语言发送POST请求,请求搭建在服务器端的LTP-server进行NLP 处理。原创 2017-10-20 15:57:39 · 2774 阅读 · 1 评论 -
Stanford CoreNLP 进行中文分词
Stanford CoreNLP 进行中文分词中文分词的工具有很多,使用斯坦福的CoreNLP进行分词的教程网上也不少,本篇博客是记录自己在使用Stanford CoreNLP进行中文分词的学习笔记。1. 工具准备1.1 下载NLP相关包:网址: https://stanfordnlp.github.io/CoreNLP/index.html 需要下载的包看下图: 1.2 准备jar包将下载下来原创 2017-06-10 17:04:14 · 14074 阅读 · 7 评论