网易数读栏目——数据采集师实习笔试

网易数读栏目——数据采集师实习笔试

题目

请爬取豆瓣APP“下厨房”小组中,各分栏(厨具讨论、一人食、黑暗料理等栏目)的热门帖子及该帖子前30条评论,并对爬取内容进行词性分词和词频统计。
提交格式要求:包括所有回答和统计结果两个文件,请分别用txt文档和Excel文档保存提交。

分析

本想着直接在网页版爬取就完事儿了,但前前后后在豆瓣网页版与app版之间对比发现:豆瓣网页版虽然是可以看到“下厨房”等小组的内容的,但是只有app版会对该栏目的发布内容进行分类,即各分栏(厨具讨论、一人食、黑暗料理等)。似乎,爬取app数据才是唯一一条路。

于是乎,对我本人来说:词性分词与词频统计并不是难点,难点在于平时多数接触的是网页数据爬取,对于app的数据爬取从未接触过。

资料收集

搜索了一定资料后发现,似乎使用fiddler分析app请求是一个不错的方法。

结局

网络问题一直请求失败,我崩溃了,最终放弃了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

调参侠鱼尾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值