今天因为毛概期末考试并没有打卡,我晚上收集汇总了一下项目的推进情况,总的来说项目进展比较顺利,同学们也都积极工作。
后端数据组
油管 李* 刚开始写完配置部分,爬虫开始调试
推特 于** 推文及用户爬虫完成,下一步考虑实现用户参与讨论的话题爬取
B站 韩** 爬虫代码基本编写完毕
微博 李** 微博爬虫即将完成
薛** 搭建了阿里云服务器,并完成图形界面,python环境配置,mysql数据库配置,为在服务器运行爬虫做好准备。使用flask框架,编写后端服务端口,主要功能是接收java前端提供的关键词信息等,以根据前段提供的信息,进行针对性的爬取。
知乎 卢** 爬取知乎的相关数据核心思路是:先运行爬虫文件爬取数据保存到csv , 然后运行保存mysql文件存到数据库。
目前设计的爬取结构: