基于Python实现的论坛帖子情感分析

SCUinfo情感分析实践
本项目通过爬取四川大学匿名社区SCUinfo的帖子,进行了情感分类分析。使用Selenium模拟浏览器行为来应对动态加载及验证问题,完成数据收集与预处理。进一步实现了帖子的情绪分类(积极/消极)及内容关联分析。

一、课程项目

Scuinfo文本分类分析

二、项目类容

爬取川大匿名社区SCUinfo在一段时间内的帖子,对其进行情感分类分析,包括情绪分类(积极,消极),帖子内容关联分析等。

三、个人工作完成报告

3.1 工作概述

负责数据收集、预处理以及简单的情感分析

3.2 爬虫方案

scuinfo为动态加载网页,并且有移动端验证,尝试使用scrapy爬取数据失败,需要对爬虫进行大量定制优化,为了提高开发效率,最终使用了之前爬取QQ空间采用的方式:使用selenium库调用firefox浏览器驱动,该再通过代码模拟人为操作浏览器。获取到对应页面数据后,使用etree和xpath选取相应的目标节点数据。

  • 优点:轻松解决网页动态加载,登录验证,移动端验证等问题

  • 缺点:该方式需要一直保持浏览器前台运行,并且只能为单线程模式,爬取效率相对较低

关键代码如下所示:

 

点击此处下载文档和源码

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值