黄大黄-优快云博客

原创爬取utp出版商中遇到的问题

1）1.5新增相对路径 response.follow() 参数与requests一致自动拼接url挺好用2）a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素

2020-07-12 21:05:30 171

只能说找了2个小时 xpath牛逼 css如果出个选择父节点的属性的就好了import requestsfrom bs4 import BeautifulSoupimport lxmlfrom lxml import htmlfrom html.parser import HTMLParserurl='https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&

2020-06-30 18:52:46 446

原创知网的爬取很简单

对于知网能爬出来的东西首先说一下论文的题目时间作者摘要等信息本文主要对搜索界面进行爬取对于知网的爬虫可以说挺简单的，其难点在于有一个二次请求通过断点分析youfiddler分析有两个要注意的url一个是红色的一个是橘色的，先通过橘色请求得到一个数据然后在通过红色请求的得到页面信息这样就完了还有一点要注意的 cookie问题网上的大神说知网跟踪用户的cookie所以请求的...

2019-05-03 12:11:17 11824 11

原创对网易云音乐js加密模式的理解基本通用

原来写过一篇网易云的评论爬取很不幸没搞懂js的加密本次经过b站大佬提供的思路有幸去窥探了一下首先吧链接放出来 av42632011 b站up主的视频我讲的不好大家可以去看一看首先对于爬虫来说反爬很要命 ip池 headers cookies js加密都是大问题主要说明js加密 js加密根据up主所说都在下图首先要会使用chrome工具 {}为js格式化 ctrl+f为查找...

2019-03-01 10:42:21 712

原创浅析crawl爬虫 ItemLoader 与Rule以中华网新闻为例未进行反爬处理

网页分析工作不做过多的解释直接对crawl爬虫的重点进行总结crawl爬虫本人感觉最重要的是对网站的翻页处理与对链接的爬取由于书上所说可以转化为通用爬虫我感觉没有太大的意义便没有再学直接上代码先上项目结构图一、items.pyimport scrapyfrom scrapy.loader import ItemLoaderfrom scrapy.loader....

2019-01-26 09:44:01 434

原创基于scrapy 的360图片爬取 item中图片存储多个链接并下载

对于scrapy我还是没有感觉到他的强大怪我太菜仍然感觉requests好用本片基于360图片的爬取并对深度的爬取不爬取封面太lower了直接进入正题首先明确360的图片为动态加载所以毫无疑问你需要访问xhr 由于本人喜欢二次元所以选择了cosplay 下面两个图片为动态加载的第二页于第三页这里可以很清楚的看见其js文件且无传递值所以基本无反爬 url的规则行...

2019-01-24 15:31:05 707 1

原创爬取人人网主要对于登陆而言基于py3 由于注册问题没有好友

在群里的大佬说爬取人人是最简单的忽然意识到没有爬过就去看了看对于人人来说最重要的应该是登陆问题在此提供两种解决方案一、基于Fiddler这个方法比较麻烦还需要去登陆一下用Fiddler抓包并分析1.通过Fiddler能很明显的去找到所要传递的信息，由于主要是要找到post请求而且还要是与登陆有关很快就找到了，隐藏起来的email为自己的账号，而对于rkey则是密码，密码是加...

2018-12-12 19:25:29 207

原创爬取网易云全评论并保存mongo中

对于本篇文章不适合爬虫新手，你需要对requests与json有一定的理解首先闲扯一下，对于爬虫你需要知道并不是所有的网站都像猫眼那样好爬，毕竟还有反爬，反爬大约有一下集中像淘宝网易这样的对数据进行特定的加密，并作为data上传才能获得内容第二种验证码不用多说，问你哪个是发电机这就很绝望第三种网页通过js css编写而成的通过js动态变化的而对于这种一般采用webd...

2018-11-07 15:42:27 189

原创自制小型错题本基于mongodb

import requestsfrom bs4 import BeautifulSoupimport pymongoclient=pymongo.MongoClient(host="localhost",port=27017)db=client.errorwordcollection=db.Englishtrue=1while true==1: word = input("...

2018-10-30 16:29:05 196

原创爬教务信息网未完想制作抢课

from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom PIL import Imageimport datetimestarttime = datetime.datetime.now()b...

2018-10-29 20:05:18 199

原创微信自动发送天气

from wxpy import *import requestsfrom bs4 import BeautifulSoupdates=[]weathers=[]temperatures={}url="http://www.tianqi.com/zaozhuang"def message(url): num=0 html=requests.get(url) ...

2018-10-25 20:50:59 1491

原创爬取天气网

import requestsfrom bs4 import BeautifulSoupnum=0dates=[]weathers=[]temperatures={}url="http://www.tianqi.com/zaozhuang"html=requests.get(url)html=BeautifulSoup(html.text,"lxml")week=html.se...

2018-10-24 21:30:51 257

原创搜狗微信爬取热门标题及其链接

import requestsfrom bs4 import BeautifulSoupimport rec=[]for i in range(1,6): url="http://weixin.sogou.com/pcindex/pc/pc_0/1.html" html=requests.get(url) html.encoding="gzip" html...

2018-10-22 22:04:38 800

原创自制小型翻译器有道

import requestsfrom bs4 import BeautifulSoupword=input("请输入你所要翻译语句")url="http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key={ "i": word, "from": "AUTO", &quot

2018-10-18 20:46:58 530

原创百度图片二爬

import requestsimport reimport osnum=1headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', "re...

2018-10-18 20:46:25 197

原创爬淘宝的iPad 即以搜索为主按照页号爬取

from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfro...

2018-09-05 20:20:24 234

原创 Ajax动态爬取今日头条

import osimport requestsfrom urllib.parse import urlencodefrom hashlib import md5from multiprocessing.pool import PoolGROUP_START = 1GROUP_END = 5def get_page(offset): params = { ...

2018-07-29 21:18:58 427

原创爬猫眼热映

import requestsfrom pyquery import PyQuery as pqimport csvtitle=[]star=[]time=[]sroce=[]url="http://maoyan.com/board"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb...

2018-06-08 17:42:34 164

原创爬猫眼

import requestsimport refrom bs4 import BeautifulSoupdef getHTML(url):#得到网页 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' '(...

2018-05-24 21:12:13 243

原创股票定向爬取

# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport tracebackimport re#对页面信息进行获取def getHTMLText(url): try: r = requests.get(url) r.raise_for_status()...

2018-05-17 21:11:28 219

qq_38413844的博客