Udacity机器学习入门笔记——数据集与问题

本文介绍了在机器学习中,数据集的质量和数量往往比精心调整的算法更为关键,更多的数据通常能带来更好的算法性能。内容涵盖了数值数据、分类数据、时序数据和文字数据等不同类型的数据在机器学习中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    MORE DATA>FINE-TUNED ALGORITHM

    更多的数据集要比经过精密调整的算法可以提供更好的结果,使用更多的数据几乎总能帮助算法取得更好的效果

数据类型:

值数据:基本特征就是数值(薪水信息)

分类数据(categorical):类别变量,监督分类较多,包括有限数量的离散值(职位——有限的工作种类)

时序数据:时间变量(邮件中的时间戳、金融)

文字数据:词袋模型(邮件内容)

其他

import pickle

enron_data = pickle.load(open("../final_project/final_project_dataset.pkl", "r"))
#数据集有多少数据点(人)
print(len(enron_data))
#每个人有多少个特征可用
print(len(enron_data['METTS MARK']))
#数据集中有多少poi=True
print(len(dict((key, values) for key, values in enron_data.items() if values['poi'] == True)))
#总共有多少 POI?
with open('../final_project/poi_names.txt','r') as t:
	poi_file = t.readlines()
	print(len(poi_file[2:]))
#James Prentice 名下的股票总值是多少?
print(enron_data['PRENTICE JAMES']['total_stock_value'])
#有多少来自 Wesley Colwell 的发给嫌疑人的电子
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值