1.第一场机器学习竞赛--达观杯”文本智能处理挑战赛

2018年,人工智能在运算与感知智能领域取得显著进展,认知智能方面,达观数据的自然语言处理技术实现了文档解析、信息提取等功能,在各行业广泛应用。面对长文本智能解析挑战,深度学习带来新方法,提升NLP效果。本次比赛提供长文本数据,邀请参赛者运用先进NLP技术,构建文本分类模型,推动文本自动化处理技术进步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。

自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!

 

实现

 

print("开始...............")

 

import pandas as pd

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import CountVectorizer

 

df_train = pd.read_csv('./train_set.csv')

df_test = pd.read_csv('./test_set.csv')

df_train.drop(columns=['article','id'],inplace=True)

df_test.drop(columns=['article'],inplace=True)

 

vectorizer = CountVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9,max_features=100000)

vectorizer.fit(df_train['word_seg'])

x_train = vectorizer.transform(df_train['word_seg'])

x_test = vectorizer.transform(df_test['word_seg'])

y_train = df_train['class']-1

 

lg = LogisticRegression(C=4,dual=True)

lg.fit(x_train,y_train)

 

y_test = lg.predict(x_test)

 

df_test['class']=y_test.tolist()

df_test['class']=df_test['class']+1

df_result = df_test.loc[:,['id','class']]

df_result.to_csv('./result.csv',index=False)

 

print("完成................")

 

代码加数据:

链接:https://pan.baidu.com/s/1xzCXiXxOI66ro4MYlo7Jrg 
提取码:v9an 
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值