
网络爬虫
Edifier12
菜鸟中的战斗机
展开
-
爬虫——手动登陆一次,使用cookie信息进行信息爬取
1、首先使用 爬虫脚本对百度翻译进行网页爬取,定义函数对get和post两种请求方式进行封装from urllib import request, parsefrom urllib.error import HTTPError, URLError#定义get请求函数def get(url,headers=None): return urlrequests(url,heade...原创 2018-08-14 23:06:36 · 2384 阅读 · 0 评论 -
爬虫程序的封装的简单操作
对爬虫程序代码进行封装,减少代码的冗余,提高重用性,避免重复造轮子。具体代码如下:from http import cookiejarfrom urllib import request,parsefrom urllib.error import HTTPError,URLErrorclass session(object): def __init__(self): ...原创 2018-08-14 23:15:00 · 911 阅读 · 0 评论 -
爬虫--爬取雪球网数据
import requestsimport jsonimport pymysql#雪球网i = 1 #记录第一个ajax请求max_id = -1count = 10while i <= 20: url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id...原创 2018-08-16 00:50:56 · 2681 阅读 · 1 评论 -
爬虫--爬取lagouwang
import requestsimport reimport jsonfrom lxml import etreefrom MySQLbao import MysqlHelper#连接数据库储存数据myhelper = MysqlHelper()sql = "insert into lagouwang (company,salary,jingyan,xueli,descript...原创 2018-08-20 08:19:53 · 1289 阅读 · 0 评论