
小项目实战
文章平均质量分 85
旭旭老师
这里只是用来记笔记方便,无意讨好读者,有价值的文章会设置粉丝可见和付费专区,不喜勿看
展开
-
微博评论爬虫 | 情感分析 | 词云图展示
爬像新浪某博这样的大网站,不用想就知道不登录肯定是爬不了多少数据的(事实就是不登录的话只能爬第一页的评论数据)。第一页返回的json信息中包含的max_id和max_id_type正是下一页所需要的url参数。3. 那么如果获取自动加载的下一页的评论信息呢?抓取下一页的评论数据url分析。利用pandas,jieba来计算每条评论信息的分数,主要代码如上。结果,请求中多了一个max_id和max_id_type。一个是pos积极评论文档,一个是neg消极评论文档。(可以通过评论ID,找到原评论)原创 2022-09-20 22:49:02 · 3567 阅读 · 6 评论 -
scrapy+flask+html打造搜索引擎
目录1.预备知识2.抓取优快云数据接口2.1 查看优快云搜索引擎主页2.2测试优快云搜索引擎的功能2.3查看更多相关文章的信息2.4抓取ajax异步请求数据2.5 分析url地址3. 使用scrapy爬取优快云数据接口3.1 start_requests3.2使用parse函数提取数据3.3保存成CSV文件3.4 运行结果4. 效果展示4.1 flask后端展示4.2 效果展示简易版搜索引擎,当时随便写的代码,不喜勿喷1.预备知识python语言,scrapy爬虫基础,json模块,flask原创 2021-07-23 14:01:32 · 915 阅读 · 7 评论