
实战
文章平均质量分 85
xxr233
这个作者很懒,什么都没留下…
展开
-
机器学习中的文本表示:特征提取时需要把测试数据一起提取了吗?
在使用机器学习做简单的文本分类时,突然有这个疑问。使用词袋模型也就是CountVectorizer进行词表示(也就是特征提取啦),我只提取了一部分训练数据的特征去训练,然后测试数据单独进行词表示后进行预测,发现这准确率很低很低啊如代码所示import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerfrom sklearn.metrics import f1_scorefr原创 2021-04-02 16:49:30 · 418 阅读 · 0 评论 -
3 FastText实现情感分析(pytorch)
在本节中,我们基于FastText算法实现一个模型论文,比之前的使用更少的参数,训练速度也明显加快准备数据FastText论文中的关键概念之一是它们计算输入句子的n-gram,并将它们附加到句子的末尾。这里我们使用bi-grams。For example, in the sentence “how are you ?”, the bi-grams are: “how are”, “are you” and “you ?”.generate_bigrams采用已经被分词的句子,计算bi-grams.翻译 2021-03-31 20:43:22 · 875 阅读 · 1 评论 -
2 升级版情感分析
在上一阶段使用基础的RNN模型完成了简单的情感分析,这一节将在上一节的基础作出以下优化:packed padded sequencespre-trained word embeddingsdifferent RNN architecturebidirectional RNNmulti-layer RNNregularizationa different optimizer使得准确率提升到84%准备数据就像之前一样,使用Fields获得数据的处理方式我们将使用packed pad.翻译 2021-03-31 15:49:55 · 185 阅读 · 0 评论 -
1 简单的情感分析
在本系列中将使用pytorch和torchtext构建模型来进行二分类情感分析,使用的数据集是IMDb(电影评论)introductionRNN网络普遍用在分析序列,一个句子用X={x1,...,xt}X = \{x_1,...,x_t\}X={x1,...,xt}表示,同一时刻,每一个词xtx_txt输入模型中都会与上一个词产生的隐藏状态ht−1h_{t-1}ht−1作用产生新的隐藏状态hth_tht,如下公式:ht=RNN(xt,ht−1)h_t = RNN(x_t,h_{t-1}).原创 2021-03-30 22:59:19 · 451 阅读 · 0 评论 -
BILSTM实现情感二分类
源码地址:https://gitee.com/xxr007/BILSTM-sentimentAnalysis.git数据探测得到了数据第一步应该做什么?当然是摸清这批数据的底,这个步骤也叫数据分析。对于用于做情感分析的文本数据,数据分析大概需要如下几步:数据总量多少条标签有几种,他们的比例是多少每一条的评论的长度是多少分词,去停用词后,每条评论的长度又是多少做一个词云图对于文本数据的分析用pandas这个库就够用了数据加载与封装模型初始化模型训练模型评估.原创 2021-03-23 21:47:53 · 2514 阅读 · 0 评论 -
pytorch LSTM模型
BILSTM模型初始化1.torch.nn.Embeddingself.embedding = nn.Embedding(vocab_size,embedding_size,padding_idx=pad_idx)num_embeddings:嵌入字典的大小(词的个数); embedding_dim:每个嵌入向量的大小; padding_idx:若给定,则每遇到 padding_idx 时,位于 padding_idx 的嵌入向量(即 padding_idx 映射所对应的向量)为0;功能原创 2021-03-18 22:24:09 · 586 阅读 · 0 评论 -
微博立场检测实战
数据数据来源:一个比赛数据格式如下图所示:五个target,三个stance,文本是微博1.导入必要的库import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.me原创 2021-01-21 18:11:01 · 1482 阅读 · 5 评论