自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 旅游热词的频繁项集挖掘 python

某旅游网站记录了用户搜索的热门旅游关键词如下图,现在希望通过频繁项集挖掘技术,Apriori算法来找出常见的旅游关键词组合,以便更好地了解用户的旅游偏好。例如,项集巴黎, 法国的支持度为0.5,表示在10条搜索记录中有5条同时包含了“巴黎”和“法国”这两个关键词。['巴黎', '法国', '东京', '旅行']['巴黎', '法国', '自由行'],['巴黎', '法国', '旅游'],['巴黎', '旅游', '酒店'],['东京', '旅行', '机票'],['巴黎', '法国', '机票'],

2024-12-05 06:56:23 902

原创 浅谈关联规则挖掘,python

关联规则就是在挖掘两个或多个事物在某个环境下一起出现的次数,例如购买记录的不同商品,在订单ID1 里,笔记本, 鼠标一起出现,订单ID13,笔记本, 钢化膜一起出现,我们可以找,某一个商品名出现多少次(出现在多少篇文章里,某两个商品一起出现多少次,某三个商品一起出现次数,在每一次计算次数之后,我们可以通过设置一个阈值,比如支持度计数为 3,也就是支持度阈值为 60%(60%*5=3)那我们将刚才统计过的次数凡是大于等于 3的留下,其余不要了,然后筛选之后还剩什么,那就是我们要找到频繁项集。

2024-11-30 17:11:38 216

原创 死磕 python 实现 多级频繁项集--菜馆账单数据集

frequent_itemsets_high = frequent_itemsets[frequent_itemsets['itemsets'].apply(lambda x: any(item in ['热菜', '凉菜', '饮料'] for item in x))]df['凉菜'] = df[['凉拌木耳', '花生', '凉拌腐竹','凉黄瓜']].any(axis=1)df['饮料'] = df[['可乐', '果汁', '矿泉水','牛奶']].any(axis=1)

2024-11-28 00:26:40 790

原创 Apriori算法-书上习题代码实现--python实现

事务数据库中有5个事务,设min_sup=65%,min__conf=80%,请用Apriori算法找出频繁项集和关联规则。我们的数据集可以由以下代码实现。

2024-11-27 17:48:40 720 1

原创 关联规则挖掘实战案例-图书借阅分析

比如 1,2 1,3 两个合并成 1,2,3 我们知道1,2 和 1,3 一定是频繁项集,但 2,3呢,我们要判断2,3是否为频繁项集。if set(x).issubset(set(y)): # 如果 x 不在 y中,就把对应元素后面加 1。['水浒传', '三国演义', '儒林外史', '红楼梦', '岳飞传', '资治通鉴']['水浒传', '三国演义', '儒林外史', '岳飞传', '茶馆', '键盘'],['红楼梦', '西游记', '周易', '诗经', '儒林外史', '岳飞传'],

2024-11-27 16:43:09 607

原创 Python 实现 Apriori 算法实例应用---热门标签

这里需要注意的是,num_itemsets参数通常用于限制生成的规则中项集的最大数量,但在这个例子中,由于我们传入了频繁项集的总数,它实际上不会对结果产生限制(除非频繁项集的数量非常多,超过了实际可能的组合)。• 频繁项集:可能包括['科技'], ['创新'], ['创业'], ['经济'], ['科技', '创业']等,具体取决于支持度的计算。• One-hot 编码后的数据:一个4x4的二进制矩阵,列名为'科技'、'创新'、'创业'、'经济',行表示各篇文章的标签情况。下面是热门标签的统计记录。

2024-11-27 16:10:40 833

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除