拿到了一个有趣的数据集,当作Spark的实践项目,目标是根据精灵的能力值预测精灵是否是传说级的精灵
一起来成为伟大的训练师吧!
首先,读取数据,并查看数据的基本信息:
有18个特征:against_*
是该精灵对其他系的精灵(比如龙系、超能力系)时能造成的伤害(比如水系克火系,那么火系精灵对上水系精灵就会输出减半,相反水系对火系则会伤害翻倍)。原数据集这些列的元素只有0.5,1,2三个值,不变于模型的训练,通过下面代码转换成-1,0,1:
against_list = ['against_bug', 'against_dark', 'against_dragon',
'against_electric', 'against_fairy', 'against_fight', 'against_fire',
'against_flying', 'against_ghost', 'against_grass', 'against_ground',
'against_ice', 'against_normal', 'against_poison', 'against_psychic',
'against_rock', 'against_steel', 'against_water']
for against_feature in against_list:
df[against_feature + '_2'] = 0
df[against_feature + '_2'][df[against_feature] == 1] = 0
df[against_feature + '_2'][df[against_feature] == 0.5] = -1
df[against_feature + '_2'][df[against_feature] == 2] = 1
df[against_feature + '_2'].astype(int)
df.drop(against_list, inplace = True, axis = 1)
原数据集中有个特征是abilities
,是精灵的能力。作为从GBA系列玩到NDS系列的老玩家,我感受到了关键特征的气息。会不会有些能力是传说级精灵独有的呢,如果能把这些能力提取出来,就能成为一个Key Feature:
import re
def ability_name(line):
name = re.search(('\'.*\''), line).group(0).split('\'')#因为abilities格式的诡异,只好用正则表达式提取
if len(name) == 5:
return [name[1],name[3]]
else:
return name[1]
legendary_map = legendary_mons['abilities'].map(ability_name)
legendary_ability_a = legendary_map.map(lambda x: x[0] if len(x) == 2 else x)
legendary_ability_b = legendary_map.map(lambda x: x[1] if len(x) == 2