MORE DATA>FINE-TUNED ALGORITHM
更多的数据集要比经过精密调整的算法可以提供更好的结果,使用更多的数据几乎总能帮助算法取得更好的效果
数据类型:
值数据:基本特征就是数值(薪水信息)
分类数据(categorical):类别变量,监督分类较多,包括有限数量的离散值(职位——有限的工作种类)
时序数据:时间变量(邮件中的时间戳、金融)
文字数据:词袋模型(邮件内容)
其他
import pickle
enron_data = pickle.load(open("../final_project/final_project_dataset.pkl", "r"))
#数据集有多少数据点(人)
print(len(enron_data))
#每个人有多少个特征可用
print(len(enron_data['METTS MARK']))
#数据集中有多少poi=True
print(len(dict((key, values) for key, values in enron_data.items() if values['poi'] == True)))
#总共有多少 POI?
with open('../final_project/poi_names.txt','r') as t:
poi_file = t.readlines()
print(len(poi_file[2:]))
#James Prentice 名下的股票总值是多少?
print(enron_data['PRENTICE JAMES']['total_stock_value'])
#有多少来自 Wesley Colwell 的发给嫌疑人的电子