
爬虫
回首观耳鬼
这个作者很懒,什么都没留下…
展开
-
关于Json数据类型
json数据类型分为三种1.常规的字典(对象类型)即a = {key1:value1,key2:value2}2.列表中有字典(数组类型)即a = [{"name":"zs","age":17},{"name":"ls","age":10}]3.json对象数组即 a = {key:[{k1:v1},{k2,v2},{k3,v3}]}...原创 2019-04-03 17:26:28 · 193 阅读 · 0 评论 -
爬虫之Xpath应用
from lxml import etree#用来获取解析后的数据html = etree.HTML(text)#用来解析文本html = etree.parse(“index2.html”)#用来解析html文档#1获取文档中的所有标签books = html.xpath("//book")#2第一个bookfirst_book = book[0]#3 获取第一本book中的hr...原创 2019-03-24 21:24:02 · 159 阅读 · 0 评论 -
爬虫之get-cookie和post-session值
COOKIE获取#获取响应数据的cookie值def get_cookie(): base_url = "http://www.baidu.com" response = request.get(base_url) #获取cookie数据 cookiejar = response.cookies print(cookiejar) #从cookiejar里面提取c...原创 2019-03-24 18:59:38 · 376 阅读 · 0 评论 -
爬虫之加salt加sign
import requests,json,time,randomimport hashlib#加密函数def getmd5(sign): #创建md5对象 md5_obj = hashlib.md5() #对sign进行加密 md5_obj.update(bytes(sign,encoding="utf-8")) #16位加密 sign = ...原创 2019-03-20 22:32:36 · 1048 阅读 · 0 评论 -
爬虫之两种网页获取办法
第一种获取方法import requests#将参数字典进行编码from urllib import parse#携带参数的get请求,携带参数的第二种方式base_url = "http://search.sina.com.cn/?q=A%B9%C9&range=all&c=news&sort=time"#生成参数qs = { "q": ...原创 2019-03-20 22:24:28 · 316 阅读 · 0 评论