
NLP
popofzk
准研究生,方向:机器学习 深度学习 自然语言处理
展开
-
利用TextCNN对IMDB做文本分类
正文参考博客:CNEWS预处理TextCNN模型1.下载kaggle数据集,并进行文本预处理:# 导入相应的包import pandas as pdimport warningsimport reimport matplotlib.pyplot as pltfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus impo...原创 2020-03-13 23:04:10 · 1381 阅读 · 0 评论 -
文本处理中常见的str、list等格式转换
归纳在文本处理的nlp领域,经常需要将大量文本格式进行不断的转换进而达到模型输入的需求,每次转换我总在尝试,也觉得很费时间,希望能够总结一些常见类型转换,方便以后随时调用。常用的函数:split: str.split(str="", num=string.count(str)) split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串...原创 2020-02-29 11:03:41 · 1319 阅读 · 0 评论 -
文本抽取Textrank算法
理论基础Textrank实际上,TextRank就是PageRank在文本上的应用。PageRank是一种用于排序网页的随机算法,它的工作原理是将互联网看作有向图,互联网上的网页视作节点,节点ViV_iVi到节点VjV_jVj,的超链接视作有向边,初始化时每个节点的权重S(Vi)S(V_i)S(Vi)都是1,以迭代的方式更新每个节点的权重。每次迭代权重的更新表达式如下:S(Vi)=(...原创 2019-12-22 18:24:13 · 502 阅读 · 0 评论 -
NLP入门实战之——基于词频和TF-IDF,利用朴素贝叶斯机器学习方法新闻分类
NLP入门实战之——基于词频和TF-IDF,利用朴素贝叶斯机器学习方法对搜狗实验室文本分类本人是零基础的小白,现在从零开始学习NLP,这是学习的一些简单的笔记,如有错误请指正。编译环境:Jupyter NotebookWindows x64本文主要分为两个板块:一是对搜狗实验室的新闻数据进行预处理(Data Preparation)从而获得所需要的特征(feature),如将数据层层处理...原创 2019-11-23 13:18:40 · 3217 阅读 · 1 评论 -
统计学习方法笔记(未完待续)
统计学习方法读书笔记(一)感知机定义:感知机是二类分类的线性模型,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面.是神经网络和支持向量机的基础.模型:www叫作权值向量,bbb叫做偏置,signsignsign是符号函数.感知机的几何解释:wx+bwx+bwx+b对应于特征空间中的一个分离超平面SSS,其中www是SSS的法向量,bbb是SSS的截距.SSS将特征空间...原创 2019-12-01 15:11:13 · 701 阅读 · 2 评论