- 博客(20)
- 收藏
- 关注
原创 爬取utp出版商中遇到的问题
1)1.5新增相对路径 response.follow() 参数与requests一致 自动拼接url挺好用2)a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
2020-07-12 21:05:30
171
原创 选取本节的父节点的兄弟节点
只能说找了2个小时 xpath牛逼 css如果出个选择父节点的属性的就好了import requestsfrom bs4 import BeautifulSoupimport lxmlfrom lxml import htmlfrom html.parser import HTMLParserurl='https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&
2020-06-30 18:52:46
446
原创 知网的爬取 很简单
对于知网能爬出来的东西 首先说一下 论文的题目 时间 作者 摘要等信息 本文主要对搜索界面进行爬取对于知网的爬虫可以说挺简单的,其难点在于有一个二次请求通过断点分析youfiddler分析有两个要注意的url一个是红色的一个是橘色的,先通过橘色请求得到一个数据然后在通过红色请求的得到页面信息这样就完了 还有一点要注意的 cookie问题网上的大神说知网跟踪用户的cookie所以请求的...
2019-05-03 12:11:17
11824
11
原创 对网易云音乐js加密模式的理解 基本通用
原来写过一篇网易云的评论爬取 很不幸没搞懂js的加密 本次经过b站大佬提供的思路有幸去窥探了一下首先吧链接放出来 av42632011 b站up主的视频 我讲的不好大家可以去看一看首先对于爬虫来说反爬很要命 ip池 headers cookies js加密都是大问题主要说明js加密 js加密根据up主所说都在下图首先要会使用chrome工具 {}为js格式化 ctrl+f为查找...
2019-03-01 10:42:21
712
原创 浅析crawl爬虫 ItemLoader 与Rule以中华网新闻为例 未进行反爬处理
网页分析工作不做过多的解释 直接对crawl爬虫的重点进行总结crawl爬虫本人感觉最重要的是对网站的翻页处理 与对链接的爬取由于书上所说可以转化为通用爬虫 我感觉没有太大的意义 便没有再学直接上代码 先上项目结构图一、items.pyimport scrapyfrom scrapy.loader import ItemLoaderfrom scrapy.loader....
2019-01-26 09:44:01
434
原创 基于scrapy 的360图片爬取 item中图片存储多个链接并下载
对于scrapy我还是没有感觉到他的强大 怪我太菜 仍然感觉requests好用本片基于360图片的爬取 并对深度的爬取 不爬取封面 太lower了直接进入正题 首先明确360的图片为动态加载 所以毫无疑问你需要访问xhr 由于本人喜欢二次元所以选择了cosplay 下面两个图片为动态加载的第二页于 第三页 这里可以很清楚的看见其js文件 且无传递值 所以基本无反爬 url的规则行...
2019-01-24 15:31:05
707
1
原创 爬取人人网主要对于登陆而言 基于py3 由于注册问题没有好友
在群里的大佬说爬取人人是最简单的 忽然意识到没有爬过就去看了看对于人人来说最重要的应该是登陆问题 在此提供两种解决方案一、基于Fiddler这个方法比较麻烦还需要去登陆一下 用Fiddler抓包并分析1.通过Fiddler能很明显的去找到所要传递的信息,由于主要是要找到post请求 而且还要是与登陆有关很快就找到了,隐藏起来的email为自己的账号,而对于rkey则是密码,密码是加...
2018-12-12 19:25:29
207
原创 爬取网易云全评论 并保存mongo中
对于本篇文章不适合爬虫新手,你需要对requests与json有一定的理解首先闲扯一下,对于爬虫你需要知道并不是所有的网站都像猫眼那样好爬,毕竟还有反爬,反爬大约有一下集中像淘宝 网易这样的对数据进行特定的加密,并作为data上传才能获得内容第二种验证码 不用多说,问你哪个是发电机 这就很绝望第三种网页通过js css编写而成的 通过js动态变化的 而对于这种一般采用webd...
2018-11-07 15:42:27
189
原创 自制小型错题本 基于mongodb
import requestsfrom bs4 import BeautifulSoupimport pymongoclient=pymongo.MongoClient(host="localhost",port=27017)db=client.errorwordcollection=db.Englishtrue=1while true==1: word = input("...
2018-10-30 16:29:05
196
原创 爬教务信息网 未完 想制作抢课
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom PIL import Imageimport datetimestarttime = datetime.datetime.now()b...
2018-10-29 20:05:18
199
原创 微信自动发送天气
from wxpy import *import requestsfrom bs4 import BeautifulSoupdates=[]weathers=[]temperatures={}url="http://www.tianqi.com/zaozhuang"def message(url): num=0 html=requests.get(url) ...
2018-10-25 20:50:59
1491
原创 爬取天气网
import requestsfrom bs4 import BeautifulSoupnum=0dates=[]weathers=[]temperatures={}url="http://www.tianqi.com/zaozhuang"html=requests.get(url)html=BeautifulSoup(html.text,"lxml")week=html.se...
2018-10-24 21:30:51
257
原创 搜狗微信爬取 热门标题及其链接
import requestsfrom bs4 import BeautifulSoupimport rec=[]for i in range(1,6): url="http://weixin.sogou.com/pcindex/pc/pc_0/1.html" html=requests.get(url) html.encoding="gzip" html...
2018-10-22 22:04:38
800
原创 自制小型翻译器 有道
import requestsfrom bs4 import BeautifulSoupword=input("请输入你所要翻译语句")url="http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key={ "i": word, "from": "AUTO", "
2018-10-18 20:46:58
530
原创 百度图片 二爬
import requestsimport reimport osnum=1headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', "re...
2018-10-18 20:46:25
197
原创 爬淘宝的iPad 即以搜索为主 按照页号爬取
from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfro...
2018-09-05 20:20:24
234
原创 Ajax动态爬取今日头条
import osimport requestsfrom urllib.parse import urlencodefrom hashlib import md5from multiprocessing.pool import PoolGROUP_START = 1GROUP_END = 5def get_page(offset): params = { ...
2018-07-29 21:18:58
427
原创 爬猫眼热映
import requestsfrom pyquery import PyQuery as pqimport csvtitle=[]star=[]time=[]sroce=[]url="http://maoyan.com/board"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb...
2018-06-08 17:42:34
164
原创 爬猫眼
import requestsimport refrom bs4 import BeautifulSoupdef getHTML(url):#得到网页 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' '(...
2018-05-24 21:12:13
243
原创 股票定向爬取
# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport tracebackimport re#对页面信息进行获取def getHTMLText(url): try: r = requests.get(url) r.raise_for_status()...
2018-05-17 21:11:28
219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人