kaggle : StumbleUpon Evergreen Classification Challenge

本文介绍了参加StumbleUpon Evergreen分类挑战的经历,包括使用AUC作为评估标准,特征提取涉及文本和数字特征,如TF-IDF和归一化的数字特征,以及应用Naive Bayes、Logistic Regression等分类模型。文章探讨了过拟合问题,并提出特征选择的重要性,最后提到了模型集成策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


StumbleUpon Evergreen Classification Challenge

------2013/08/16 -- 2013/10/31

一 背景

Build a classifier to categorize webpages as evergreen or non-evergreen

 

Stumbleupon是美国的UGC网站,用户分享内容,网站通过用户行为数据构建兴趣图谱和对用户喜好进行一个个性化定位。

Stumbleupon 发布一个比赛,公司提供数据集,包括有标记的训练集和待预测的测试集,根据StumbleUpon提供历史数据,设计分类模型,预测StumbleUpon提供的网页是否是长期流行,还是短暂流行。

训练集是网页的内容和标记(网页是否是evergreen-长期备受欢迎)

测试集是网页内容,

预测目标y0,1  0non-evergreen,1evergreen)

官网上数据集格式如下:

FieldName

Type

Description

url

string

Url of the webpage to be classified

urlid

integer

StumbleUpon's unique identifier for each url

boilerplate

json

Boilerplate text

alchemy_category

string

Alchemy category (per the publicly available Alchemy API found at www.alchemyapi.com)

alchemy_category_score

double

Alchemy category score (per the publicly available Alchemy API found at www.alchemyapi.com)

avglinksize

double

Average number of words in each link

commonLinkRatio_1

double

# of links sharing at least 1 word with 1 other links / # of links

commonLinkRatio_2

double

# of links sharing at least 1 word with 2 other links / # of links

commonLinkRatio_3

double

# of links sharing at least 1 word with 3 other li

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值