小白爬虫-优快云博客

原创 Python爬虫爬取音频文件 #只用于学习

from lxml import etreeimport requestsimport osfrom urllib import request,parseurl = 'https://www.ximalaya.com/lishi/4164479/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64)...

2018-08-19 17:12:22 5572 2

原创 Python爬虫爬取今日头条街拍部分图片

import requestsimport json,os,refrom urllib import requestfor i in range(0,60,20): # 循环3页 url = 'https://www.toutiao.com/search_content/?offset={}&amp;format=json&amp;keyword=%E8%A1%97%E6%...

2018-08-16 22:49:41 444

原创 Python爬虫爬取雪球网部分数据

import requestsimport jsonurl = { 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111', 'https://xueqiu.com/v4/statuses/...

2018-08-15 22:54:55 4201 1

原创 Python爬虫实现人人网登陆

from day1.tuozhan_all import get,postimport jsonfrom urllib import request,parsefrom http import cookiejar# 通过对象保存cookiecookie_obj = cookiejar.CookieJar()# handler是一个操作handler = request.HTTPCo...

2018-08-15 21:28:14 339

原创 Python爬虫实现有道翻译

import timeimport random#封装的函数请看上个作品from day1.tuozhan_all import postimport jsondef md5_my(need_str): import hashlib # 创建对象 md5_o = hashlib.md5() # 转换成bytes sign_bytes = nee...

2018-08-15 21:12:18 254

原创 Python爬虫入门封装函数

from urllib import request, parsefrom urllib.error import HTTPError,URLErrorimport json**#post方法**def post(url, form, headers=None): return url_requests(url, form,headers=headers)**#get方法**...

2018-08-15 20:55:57 787

原创 Session与Cookie的区别？他们分别又是什么？

CookieCookie实际上是一小段的文本信息。客户端请求服务器，如果服务器需要记录该用户状态，就使用response向客户端浏览器颁发一个Cookie。客户端会把Cookie保存起来。当浏览器再请求该网站时，浏览器把请求的网址连同该Cookie一同提交给服务器。服务器检查该Cookie，以此来辨认用户状态。服务器还可以根据需要修改Cookie的内容。SessionSession是另...

2018-08-15 20:48:57 350

weixin_42980582的博客