CCF大赛,【NLP处理】汽车行业用户评论 文本主题分类与基于主题的情感预测 【baseline】

43 篇文章 ¥19.90 ¥99.00
该博客分享了作者在CCF大赛中的文本处理经验,使用tfidf+LR进行初步的文本分类,达到70%的准确率。作者探讨了面对一个文本可能属于多个主题的问题,提出了两种解决方案:基于多分类的类别预测和基于多个二分类的0 1预测。后续计划尝试LightGBM,并指出情感预测不应基于整篇文章,而应关注特定主题区域。目前在比赛中取得较好成绩,但面临挑战。

通过tfidf+LR做文本分类、

# -*- coding: utf-8 -*-
"""
Created on Wed Sep  5 13:23:31 2018

@author: Lenovo
"""

import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from gensim import corpora,models
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from gensim.similarities.docsim import Similarity
from sklearn.naive_bayes import MultinomialNB
from sklearn.cross_validation import train_test_split 
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression 
##content_id,conte
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南七小僧

打赏后,可以添加微信一对一咨询

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值