- 博客(6)
- 收藏
- 关注
原创 旅游热词的频繁项集挖掘 python
某旅游网站记录了用户搜索的热门旅游关键词如下图,现在希望通过频繁项集挖掘技术,Apriori算法来找出常见的旅游关键词组合,以便更好地了解用户的旅游偏好。例如,项集巴黎, 法国的支持度为0.5,表示在10条搜索记录中有5条同时包含了“巴黎”和“法国”这两个关键词。['巴黎', '法国', '东京', '旅行']['巴黎', '法国', '自由行'],['巴黎', '法国', '旅游'],['巴黎', '旅游', '酒店'],['东京', '旅行', '机票'],['巴黎', '法国', '机票'],
2024-12-05 06:56:23
902
原创 浅谈关联规则挖掘,python
关联规则就是在挖掘两个或多个事物在某个环境下一起出现的次数,例如购买记录的不同商品,在订单ID1 里,笔记本, 鼠标一起出现,订单ID13,笔记本, 钢化膜一起出现,我们可以找,某一个商品名出现多少次(出现在多少篇文章里,某两个商品一起出现多少次,某三个商品一起出现次数,在每一次计算次数之后,我们可以通过设置一个阈值,比如支持度计数为 3,也就是支持度阈值为 60%(60%*5=3)那我们将刚才统计过的次数凡是大于等于 3的留下,其余不要了,然后筛选之后还剩什么,那就是我们要找到频繁项集。
2024-11-30 17:11:38
216
原创 死磕 python 实现 多级频繁项集--菜馆账单数据集
frequent_itemsets_high = frequent_itemsets[frequent_itemsets['itemsets'].apply(lambda x: any(item in ['热菜', '凉菜', '饮料'] for item in x))]df['凉菜'] = df[['凉拌木耳', '花生', '凉拌腐竹','凉黄瓜']].any(axis=1)df['饮料'] = df[['可乐', '果汁', '矿泉水','牛奶']].any(axis=1)
2024-11-28 00:26:40
790
原创 Apriori算法-书上习题代码实现--python实现
事务数据库中有5个事务,设min_sup=65%,min__conf=80%,请用Apriori算法找出频繁项集和关联规则。我们的数据集可以由以下代码实现。
2024-11-27 17:48:40
720
1
原创 关联规则挖掘实战案例-图书借阅分析
比如 1,2 1,3 两个合并成 1,2,3 我们知道1,2 和 1,3 一定是频繁项集,但 2,3呢,我们要判断2,3是否为频繁项集。if set(x).issubset(set(y)): # 如果 x 不在 y中,就把对应元素后面加 1。['水浒传', '三国演义', '儒林外史', '红楼梦', '岳飞传', '资治通鉴']['水浒传', '三国演义', '儒林外史', '岳飞传', '茶馆', '键盘'],['红楼梦', '西游记', '周易', '诗经', '儒林外史', '岳飞传'],
2024-11-27 16:43:09
607
原创 Python 实现 Apriori 算法实例应用---热门标签
这里需要注意的是,num_itemsets参数通常用于限制生成的规则中项集的最大数量,但在这个例子中,由于我们传入了频繁项集的总数,它实际上不会对结果产生限制(除非频繁项集的数量非常多,超过了实际可能的组合)。• 频繁项集:可能包括['科技'], ['创新'], ['创业'], ['经济'], ['科技', '创业']等,具体取决于支持度的计算。• One-hot 编码后的数据:一个4x4的二进制矩阵,列名为'科技'、'创新'、'创业'、'经济',行表示各篇文章的标签情况。下面是热门标签的统计记录。
2024-11-27 16:10:40
833
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅