
爬虫
qq_42052864
这个作者很懒,什么都没留下…
展开
-
字体反爬-解析字体文件
3.每一次请求的字体反爬数据都不一样,需要根据response实时获取到数据包的url,请求url,下载数据包再转换为xml,拿到解析后的关系映射表。1.每一个网站的都不一样,可以理解是一种加密算法。入门级字体反爬【高级KNN,OCR,2.是一种后缀为woff的文件。原创 2022-10-23 16:37:58 · 444 阅读 · 1 评论 -
JS 解析
-js代码 >> 使用window 却没有定义window,通过控制台知道window[d]是个固定值,即'320305.131321201',直接在js里面赋值即可。-- settings - Languages & Frameworks - Node.js and NPM里面,配置好前面安装的node.js的路径即可。-- settings > plug-in > 搜索node.js 安装即可。6.复制对应的js代码块,到本地文件(可以复制对应的部分,实在不行复制全部)--python代码。原创 2022-10-19 23:48:41 · 499 阅读 · 0 评论 -
Selenium 爬虫
selenium爬虫相关总结原创 2021-12-26 02:46:22 · 525 阅读 · 2 评论 -
百度翻译爬取
import pandas as pdimport requestsimport jsonimport hashlibimport randomimport numpy as npimport timeapiurl = 'http://api.fanyi.baidu.com/api/trans/vip/translate'appid = '20200818000545689'secretKey = 'l9lrhrQdfwJAv0faWJ7A'def translateBaidu(.原创 2021-04-21 14:38:44 · 199 阅读 · 0 评论 -
Request 学习2
POST请求import requests,jsonheaders={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}post_data={'i':'人生苦短,我用python...原创 2020-02-23 21:26:06 · 168 阅读 · 0 评论 -
Requests学习
Requests.get(url,params=params)Requests中解决解码的方法response=requests.get('https://www.ssyer.com/')response.content.decode() #推荐这种方式获取网页数据response.content.decode('gbk')response.text 使用res...原创 2020-02-23 00:23:28 · 165 阅读 · 0 评论 -
爬虫基础知识
爬虫基础知识爬虫是模拟客户端发生网络请求,接受请求响应 http:超文本传输协议 https:http+ssl(安全套接字层)url形式:scheme://host[:port#]/path/.../[?query_string][#anchor]scheme://host[:port#]/path/.../[?query_string][#anchor] host:服务器的i...原创 2020-02-22 23:54:03 · 263 阅读 · 0 评论 -
58同城二手数据获取
from bs4 import BeautifulSoupimport requestsimport timeimport randomheaders={ 'Cookie': 'id58=c5/njVsBjTGDm7Q3B9NdAg==; 58tj_uuid=bde7a202-df83-41d2-905d-71ff35ce3765; als=0; commontopbar_my...原创 2018-06-19 19:06:03 · 2911 阅读 · 0 评论 -
python数据抓取与可视化post方法,网易云课堂人工智能
数据爬取import json,timefrom bs4 import BeautifulSoupimport requestsheaders={ 'Content-Type': 'application/json', 'edu-script-token': '70d2f62d6584454f8b6378680f8f58fa', 'Host': 'stu...原创 2018-09-05 22:18:40 · 717 阅读 · 0 评论 -
selenium 模拟登陆
#Selnium 和 PhantomJS的配合使用#模拟浏览器操作from selenium import webdriverdriver = webdriver.PhantomJS()driver.get('https://www.douban.com/')driver.implicitly_wait(5)driver.find_element_by_id('form_email'...转载 2018-08-24 16:32:43 · 259 阅读 · 0 评论 -
http基础
原创 2018-08-17 15:07:22 · 173 阅读 · 0 评论 -
XPath
xpath:1、XML路径语言,拥有在数据结构树中查找节点的能力 2、被开发者当作小型查询语言来使用 3、XPath通过元素和属性进行导航为什么学习Xpath1、支持html2、比正则表达式简单,强大3、scrapyXpath的基本概念节点:Parent(父)Children(子)Sibling(同胞)Ancestor...原创 2018-08-17 14:28:39 · 848 阅读 · 0 评论 -
CSS选择器
css选择器:一种快速定位元素的方法原创 2018-08-17 13:45:43 · 136 阅读 · 0 评论