基于决策树的网页分类（Python+Spark实现）

最新推荐文章于 2022-10-07 22:22:02 发布

原创

最新推荐文章于 2022-10-07 22:22:02 发布 · 2.5k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #Python #MLib #决策树

本文探讨了基于决策树的网页分类问题，利用Python和Spark的MLib库进行模型训练。数据预处理阶段忽略与分类无关的字段，模型训练时设置了决策树的相关参数。最后，通过AUC评估模型的性能。

1、网页分类问题

网页分类是一个经典的问题，例如：雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种，如：a、按网页类型（新闻、财经、体育、科技……）；b、按网页内容：

暂时性的（ephemeral）：文章只是在某一段时间内对读者有意义，过了这段时间就没有意义了，如：当日股市涨跌新闻；
长青的（evergreen）：读者长久会对这些文章感兴趣，如：理财观念、育儿知识等。

本文考虑的就是按网页内容将网页分为暂时性的与长青的，是一个二元分类问题。

2、数据预处理

数据下载

字段 0~2：网址、网址id、样板文字，与我们的分类问题关系不大，忽略。
字段3-25：特征字段，参考
字段26：标签，1代表长青网页，0代表暂时性的网页。

from pyspark import SparkContext
sc = SparkContext()

def PrepareData(sc): 
    #----------------------1.导入并转换数据-------------
    global Path    
    if sc.master[0:5]=="local" :
       Path="D:\\data\\input\\"
    else:   
       Path="hdfs://master:9000/user/hduser/"
    #如果要在cluster模式运行(hadoop yarn 或Spark Stand alone)，请先把文件上传到HDFS目录
    print(