- 博客(6)
- 收藏
- 关注
原创 爬虫之用pymysql把爬取得数据存入MySQL数据中
import json import requests from day3.mysql_test import mysql_conn # 因为不能访问, 所以我们加个头试试 headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh...
2018-08-15 22:16:02
1186
转载 爬虫之使用代理ip爬取百度网页
from urllib import request #代理 proxy = { 'http':'219.141.153.41:80' } url = 'http://www.baidu.com/s?wd=ip' headler = request.ProxyHandler(proxy) opener = request.build_opener(headler) respon...
2018-08-14 22:14:39
1788
转载 爬虫之人人网登陆账号后,根据cookie爬取页面
from day1.tuozhan_all import get # 0.url # 1.构造headers # 2.调用get函数 # 3.保存页面 url = 'http://www.renren.com/967456760' headers = { # 'Accept', 'text/html,application/xhtml+xml,application/xml;q=0...
2018-08-14 21:49:05
637
翻译 爬虫之salt加盐暴力破解——有道词典翻译
import time import random import json from day1.tuozhan_all import post # 封装MD5加密函数 def md5_my(need_str): import hashlib #创建md5加密对象 md5_o = hashlib.md5() #需要bytes作为参数 sign_bytes ...
2018-08-14 21:02:02
1195
转载 cookie和session的区别
什么是cookie? 由于HTTP是一种无状态的协议,服务器单从网络连接上无从知道客户身份。Cookie是当你浏览某网站时,网站存储在你机器上的一个小文本文件,它记录了你的用户ID,密码、浏览过的网页、停留的时间等信息,当你再次来到该网站时,网站通过读取Cookie,得知你的相关信息,就可以做出相应的动作,如在页面显示欢迎你的标语,或者让你不用输入ID、密码就直接登录等。 ...
2018-08-13 23:14:55
267
转载 爬虫初级之get,post函数简单封装
from urllib import request,parse from urllib.error import HTTPError,URLError #a.get(url,headers=None) def get(rul,headers=None): return urlrequests(url,headers=headers) #b.post(url,form,headers=...
2018-08-13 22:46:33
375
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人