市场篮子分析:数据编码与Apriori算法
1. 数据编码与准备
1.1 手动数据编码
在处理交易数据时,首先可以对数据进行手动编码,具体步骤如下:
1. 对重复且无序的物品列表进行排序,去除重复项。代码如下:
list_nondup_sort_items = sorted(list(set(list_dup_unsort_items)))
- 初始化一个DataFrame,所有元素初始值为False,列名设置为物品列表。
import pandas as pd
manual_df = pd.DataFrame(
False,
index=range(len(ll)),
columns=list_dup_unsort_items
)
- 遍历每个交易列表,如果物品存在于交易中,则将对应元素设置为True。
for i in range(len(ll)):
for j in ll[i]:
manual_df.loc[i, j] = True
- 返回包含布尔值的DataFrame。
1.2 自动数据编码
除了手
超级会员免费看
订阅专栏 解锁全文
1168

被折叠的 条评论
为什么被折叠?



