
网络爬虫
果小撮
这个作者很懒,什么都没留下…
展开
-
从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析
从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析写在前面这个夏天最火的综艺节目之一,《乘风破浪的姐姐》。前段时间刚刚补完所有期公演舞台,作为一个时刻充满好奇心的统计人,今天就来从数据分析的角度谈谈谁才是这个夏天的无价之姐,本篇文章是从公演舞台正片弹幕角度出发的,涉及网络爬虫、分词处理、文本分析、词云图等。首先说明两点:①数据真实,分析客观,但由于出发角度的片面性可能会有失偏颇,②所有分析及论述仅为个人观点,不上升节目组以及任何一位姐姐。数据说明来源:《乘风破浪的姐姐 舞台完整版》第2原创 2020-09-24 21:02:36 · 752 阅读 · 0 评论 -
网络爬虫之豆瓣评论
在上篇网络爬虫之豆瓣电影中,简单介绍了Python网络爬虫三种常用方法,同时给出了爬取豆瓣电影信息的小案例。今天整理出视频业务线另一个比较常见的需求,针对某一影视剧,我们比较关注人们对它的评价,可以把这些评论生成词云图,比较直观地展示出来评论的方向;也可以后续对评论进行文本分析,对演员、剧情、特效以及对应的受众人群信息等方面进行深层次地探讨以及统计层面的分析,深挖评论信息背后的价值。案例这个案例用的是电影《爵迹》,通过更改代码url中的豆瓣ID即可换成其他影视剧,爬取的评论信息包括用户名、发表日期、评论原创 2020-09-15 17:09:24 · 1093 阅读 · 0 评论 -
网络爬虫之豆瓣电影
网络爬虫常用方法Python作为最易上手的编程语言之一,在很多领域的应用已经相对成熟,尤其是一些工具应用类的场景,比如本文要介绍的网络爬虫。网络爬虫目前比较成熟的方法有三种,在Python中都有现有打包好的包/库,直接调用,非常方便。本篇博客只关注网络爬虫的应用层面,重点放在如何解决实际问题,所以对三种方法的理论介绍不做过多描述。BeautifulSoupXPathlxmlBeautifulSoupPython中的一个HTML/XML的解析库,可以很方便地从网页中提取数据,自动将输入文档原创 2020-09-15 08:56:52 · 572 阅读 · 0 评论