16、数据处理与时间序列分析:从食谱推荐到金融数据应用

数据处理与时间序列分析:从食谱推荐到金融数据应用

1. 食谱数据探索与简单推荐系统

在数据处理中,Pandas 的字符串工具能帮助我们进行基本的数据探索。例如,我们可以查看食谱数据中是否有将“cinnamon”误拼为“cinamon”的情况:

recipes.ingredients.str.contains('[Cc]inamon').sum()

运行结果表明有 11 个食谱存在这样的拼写错误。

接着,我们来构建一个简单的食谱推荐系统。给定一组食材,我们要找出使用了所有这些食材的食谱。由于数据格式多样,直接从每行提取干净的食材列表并不容易。所以,我们可以先从常见食材列表入手,检查它们是否出现在每个食谱的食材列表中。这里我们以香草和香料为例:

spice_list = ['salt', 'pepper', 'oregano', 'sage', 'parsley',
              'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin']
import re
spice_df = pd.DataFrame(dict((spice, recipes.ingredients.str.contains(spice, re.IGNORECASE)) for spice in spice_list))
spice_df.head()

运行上述代码后会得到一个布尔型的 DataFrame,显示每种香料是否出现在食谱的食材

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值