python提取piazza的信息
目标:实现从piazza提取信息。
实现方式:python爬虫
实现思路:
1.首先用python脚本实现模拟登录到piazza;
2.然后抓取页面源码;
3.接着对页面源码组织结构进行分析,用正式表达式抽取所需信息。
一、环境准备:
1.采用的python版本是python2.7.9。这里推荐一个python开发环境PyCharm,用于python代码的编写与调试。pycharm的下载及使用参见http://blog.youkuaiyun.com/msda/article/details/38705525
2. 在火狐浏览器上安装插件httpfox用于浏览器行为监视,目的是获得模拟登录时提交的表单信息。
如果你已经有了python2.7.9的运行环境,并且已有httpfox。则跳过下面的内容,直接到第二部分“二、进入piazza 网页,进行登录,从httpfox 中获得post的表单信息。”。
&n

本文介绍如何使用Python模拟登录Piazza并提取信息。通过Python爬虫技术,详细阐述了环境准备、获取登录表单信息以及编写模拟登录程序的步骤。
最低0.47元/天 解锁文章
1966

被折叠的 条评论
为什么被折叠?



