Apriori是常用的关联规则挖掘方法之一, 本例为关联规则挖掘实战练习, 通过python自动化爬虫抓取豆瓣电影中某导演的电影名和演员, 通过apriori算法看出来其选择演员的倾向。
一. 网络爬虫
本例选择冯小刚导演为分析对象, 先进入豆瓣搜索冯小刚, 分析带爬取的网页:
1. url分析
首页网址为:
https://movie.douban.com/subject_search?search_text=冯小刚&cat=1002&start=0
第二页网址为:
https://movie.douban.com/subject_search?search_text=冯小刚&cat=1002&start=15
在查看之后需要爬取的网址, 可以确定网页变化的规律为, 每翻一页'start=' 后面的数字增值15, 其他不变.
2. 页面模块分析
除首页有16条数据(首页页首多出导演介绍)和末页以外, 其他页均包含15条数据, 通过对源代码分析, 可用Xpa

本文通过Python爬虫抓取豆瓣电影中冯小刚导演的电影及其演员信息,运用Apriori算法进行关联规则挖掘,揭示冯小刚导演在选角上的偏好。结果显示,张国立、徐帆和葛优是冯小刚常用的演员,且张国立参演时,徐帆通常也会参与同一部电影。
最低0.47元/天 解锁文章
4829

被折叠的 条评论
为什么被折叠?



