用Spark分析Pokemon精灵的传说级潜质

使用Spark分析Pokemon数据集,预测精灵是否为传说级。通过特征工程发现特定能力与传说级关联,增加特征后模型准确率提升,揭示了龙系等系别在传说级精灵中的优势。最终,成功实现传说级精灵的鉴定。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

拿到了一个有趣的数据集,当作Spark的实践项目,目标是根据精灵的能力值预测精灵是否是传说级的精灵

一起来成为伟大的训练师吧!

首先,读取数据,并查看数据的基本信息:
这里写图片描述
有18个特征:against_* 是该精灵对其他系的精灵(比如龙系、超能力系)时能造成的伤害(比如水系克火系,那么火系精灵对上水系精灵就会输出减半,相反水系对火系则会伤害翻倍)。原数据集这些列的元素只有0.5,1,2三个值,不变于模型的训练,通过下面代码转换成-1,0,1:

against_list = ['against_bug', 'against_dark', 'against_dragon',
       'against_electric', 'against_fairy', 'against_fight', 'against_fire',
       'against_flying', 'against_ghost', 'against_grass', 'against_ground',
       'against_ice', 'against_normal', 'against_poison', 'against_psychic',
       'against_rock', 'against_steel', 'against_water']

for against_feature in against_list:
    df[against_feature + '_2'] = 0
    df[against_feature + '_2'][df[against_feature] == 1] = 0
    df[against_feature + '_2'][df[against_feature] == 0.5] = -1
    df[against_feature + '_2'][df[against_feature] == 2] = 1
    df[against_feature + '_2'].astype(int)

df.drop(against_list, inplace = True, axis = 1)

原数据集中有个特征是abilities,是精灵的能力。作为从GBA系列玩到NDS系列的老玩家,我感受到了关键特征的气息。会不会有些能力是传说级精灵独有的呢,如果能把这些能力提取出来,就能成为一个Key Feature

import re

def ability_name(line):
    name = re.search(('\'.*\''), line).group(0).split('\'')#因为abilities格式的诡异,只好用正则表达式提取
    if len(name) == 5:
        return [name[1],name[3]]
    else:
        return name[1]

legendary_map = legendary_mons['abilities'].map(ability_name)
legendary_ability_a = legendary_map.map(lambda x: x[0] if len(x) == 2 else x)
legendary_ability_b = legendary_map.map(lambda x: x[1] if len(x) == 2 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值