作业要求
Using ham-spam.csv (WED)/ SMSSpamCollection (THU)
Perform MapReduce process to find out top 20 words of class ham.
Perform MapReduce process to find out top 20 words of class spam
数据集
ham-spam.csv (WED)/ SMSSpamCollection (THU)
下载链接:https://archive.ics.uci.edu/datasets
数据集内容描述:
SMS Spam Collection是用于广告短信识别的经典数据集,完全来自真实短信内容,包括4831条正常短信和747条广告短信。
其内容如下,每一个line都表示一段邮件,"ham"和"spam"分别表示邮件的类别“正常邮件”和“广告邮件”,然后以'\t'为间隔右边的长字符串为邮件内容。
开发平台
谷歌云端硬盘
作业实现思路及代码
1、建立谷歌连接
在Google Colab中与Google Drive云存储服务建立连接和创建一个符号链接,使你能够在Google Colab中连接到Google Drive,然后列出Google Drive中的文件和文件夹,以便在Colab环境中访问它们。
from google.colab import drive driv