
爬虫学习
Croyance_M
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
练习---爬取知乎某个用户所写文章的标题、链接、内容简介
import requestsimport openpyxlfrom pypinyin import lazy_pinyinimport os#汉字转拼音def toPy(name): names=lazy_pinyin(name) py=names[0] for n in names[1:]: py=py+'-'+n return pydef get(name,pa...原创 2019-05-06 16:01:22 · 1163 阅读 · 0 评论 -
练习---利用扇贝网做个测单词的小工具
将错误单词和不认识的单词打印出来import requestsimport time#选择单词类别url='https://www.shanbay.com/api/v1/vocabtest/category/'res=requests.get(url)js=res.json()category=js['data']n=0print('欢迎使用梦潇测单词!\n')time....原创 2019-05-08 18:40:48 · 2694 阅读 · 0 评论 -
练习---爬取饿了么某POI地址附近的餐厅(不能自动登录版)
这一章学的是带cookies登陆,本来想写入存储cookies,下次就可以自动登陆了,但是写失败了。而且饿了么只支持手机验证码登录,我发验证码太频繁了已经被饿了么限制了嘤嘤嘤...目前只能简单写一下输入手机号,发送验证码,登录(如果发送验证码失败就不能继续了,所以要保证手机号可用)。另一个限制是我只能搜索固定一座城市的地址,在这里写的是广州。总之是一个能运行但是功能不牛x的有瑕疵...原创 2019-05-10 14:24:00 · 941 阅读 · 0 评论 -
练习---有道翻译来自动翻译(菜鸡版)
爬取有道翻译时,发现有道使用了反爬虫机制,将sign和salt加密了,网上很多大神已经破解了(跪拜)传送门:https://tendcode.com/article/youdao-spider/本菜鸡用了最投机取巧的方法,将'http://fanyi.youdao.com/translate_o'中的'_o'去掉就行了(来源于https://www.pypypy.cn)至于原理,本菜鸡...原创 2019-05-10 15:10:27 · 474 阅读 · 0 评论 -
练习---爬取堆糖上的头像
import requestsimport jsonimport osdef save_photo(num,name): nums=0 count=0 while nums<=30: url="https://www.duitang.com/napi/blog/list/by_filter_id/" params={ 'include_fields':'top_...原创 2019-06-25 13:40:47 · 633 阅读 · 0 评论 -
练习---爬取堆糖上搜索的图片,并下载下来
import requestsimport jsonimport osdef search_photo(name,max_n,count,num): url="https://www.duitang.com/napi/blog/list/by_search/" params={ 'kw':name, 'type':'feed', 'include_fields':'top_...原创 2019-06-25 19:22:40 · 1638 阅读 · 0 评论 -
练习---接入图灵机器人+itchat回复好友消息
先去http://www.tuling123.com/member/robot/index.jhtml创建一个机器人,记住这个apikey可以查看https://www.kancloud.cn/turing/www-tuling123-com/718227api2.0接入文档下面是在终端运行与图灵机器人对话import requestsimport json#图灵机器人的...原创 2019-07-05 11:41:11 · 358 阅读 · 0 评论 -
练习---selenium爬取拉勾网的职位信息
今天刚开始学selenium,就写了一个爬取拉勾网某个你想搜索职位的公司、职位名、薪酬、招聘要求和招聘链接并且存储到同一个表格中的不同表单中(每搜索一次,存储在同一表格的新的表单中)进入拉勾网的第一个页面没有隐藏起来,后面点击链接后的页面隐藏起来了(怕我老板发现我在浏览别的公司的信息)刚学selenium,好多find方法还不熟练~~~from selenium import w...原创 2019-09-06 20:10:37 · 503 阅读 · 0 评论 -
学习---在python里用gevent和queue建立多协程的爬取
平时写的爬虫,有多个url时,只能一个一个请求,这叫同步的爬虫方式,速度耶比较慢。为了解决这样的问题,一种非抢占式的异步技术被创造了出来,这种方式叫多协程(在此,多是多个的意思)。它的原理是:一个任务在执行过程中,如果遇到等待,就先去执行其他的任务,当等待结束,再回来继续之前的那个任务。在计算机的世界,这种任务来回切换得非常快速,看上去就像多个任务在被同时执行一样。所以,要实现异步的...原创 2019-09-07 19:54:06 · 1269 阅读 · 1 评论 -
练习---爬取时光网电视剧TOP100的电影名,用同步和异步两种方式,并对比完成速度
from gevent import monkeymonkey.patch_all()import requests,time,geventfrom bs4 import BeautifulSoupfrom gevent.queue import Queueres = requests.get('http://www.mtime.com/top/tv/top100/')html ...原创 2019-09-07 20:01:34 · 2110 阅读 · 3 评论 -
练习---爬取薄荷网所有食物卡路里,并分类放入excel中
首先薄荷网里有11种大的食物分类,每种大的食物分类里有10页,每页10个食物及热量记录。本来想把这一共110个url都放入queue队列中,然后爬取,但是这样会打乱食物的分类,所以就只把每个食物大类的10个页面每次放入queue中,这样保证大类不会错乱,但是会比将110个网页放入queue会慢很多。然后按照每个大类分别放入excel中的不同表单中。#爬取薄荷网十一大类食物的卡路里fro...原创 2019-09-09 17:17:45 · 3017 阅读 · 5 评论 -
练习---爬取股票、基金信息,通过钉钉机器人发送至群
最近沉迷于基金股票,又不好天天瞅着,就写了个每隔5min发送我选的某几个基金和股票的信息,通过钉钉机器人发送到钉钉群(工作用钉钉,方便摸鱼时看股票)在这里用了tushare直接获取股票信息,只要输入股票代码就行基金信息是爬取的东方财富网的基金信息的,只要输入基金代码就行钉钉群机器人直接在钉钉群设置里选智能群助手就可以添加机器人了,会给你一个url,用post请求就可以了impor...原创 2019-09-18 15:17:00 · 2078 阅读 · 1 评论 -
练习---将爬取的豆瓣TOP250书籍存储到csv文件中
之前有写过用xlwt存储到excel表中,这次写存储到csv文件中import requestsimport jsonimport csvfrom bs4 import BeautifulSoupbooks=[]def book_name(url): res=requests.get(url) html=res.text soup=BeautifulSoup(html,'...原创 2019-05-05 14:46:03 · 1111 阅读 · 0 评论 -
练习---爬取QQ音乐多个歌手的歌单,存取到同一个Excel工作簿中不同sheet表格中
import requestsimport jsonimport openpyxlimport osdef save_music(singer): url='https://c.y.qq.com/soso/fcgi-bin/client_search_cp' path='C:\\Users\\Xpeng\\Desktop\\爬取到的表格\\歌曲.xlsx' if os.pat...原创 2019-05-05 14:27:03 · 1372 阅读 · 3 评论 -
05.爬虫---存取文件---csv和excel
一、csv写入与读取csv是什么csv是一种字符串文件的格式)(json是特殊的字符串),它组织数据的语法是在字符串之间加分隔符---行与行之间加换行符,同行之间加逗号分隔。可以用任意文本编辑器打开。python自带了csv模块csv文件里的逗号可以充当分隔同行字符串的作用import csvfile=open('C:\\Users\\Xpeng\\Desktop\\爬取到的表格...原创 2019-05-05 14:22:42 · 454 阅读 · 0 评论 -
练习---爬取QQ音乐某首歌的评论,并存入Excel表中---以《消愁》为例
import requestsfrom bs4 import BeautifulSoupimport jsonimport xlwt#存储成Excel表格的函数def save_excel(comment,save_file):#第一个参数的整个评论存储所在的列表 wb=xlwt.Workbook() sheet=wb.add_sheet('评论') for i in ran...原创 2019-04-28 18:27:52 · 1172 阅读 · 1 评论 -
04.爬虫---带参数请求数据---params
在Network中的Headers中的Query String Parameters中找到下面的参数把上面的参数放在一个字典中,记得要加上引号''和逗号, 由于加这些比较麻烦,写了个小函数,自动加上引号和逗号def add_yinhao(test): #将复制来的param加上引号如下 #test="""'content'""" test=test.replace(' ',...原创 2019-04-28 18:17:30 · 8527 阅读 · 0 评论 -
03.爬虫---解析数据与提取数据---Network和json
访问动态页面时,会有很多请求,如果用BeautifulSoup只能访问第0个请求,所以爬取大多数网页需要在Network中查找到所需要的请求页面。以QQ音乐的网站为例,在QQ音乐中搜索孙燕姿。找到Network网页中点击右键,进入检查(ctrl+shift+i),第一行第四个是NetworkNetwork的功能记录在当前页面上发生的所有请求。现在点进去看上去好像空空如也的样子...原创 2019-04-28 17:55:36 · 3027 阅读 · 1 评论 -
练习---将爬取的豆瓣TOP250存储到Excel表中
爬取豆瓣TOP250的电影,存在Excel中import requestsfrom bs4 import BeautifulSoupimport xlwt#------将爬取内容-豆瓣电影250-存储到excel表格中----------def excel(movies,save_file):#存储成excel表 wb=xlwt.Workbook() #创建工作表 she...原创 2019-04-28 17:07:56 · 1715 阅读 · 0 评论 -
练习---打印出电影天堂中电影的下载链接
用户输入喜欢的电影名字,程序即可在电影天堂https://www.ygdy8.com爬取电影所对应的下载链接,并将下载链接打印出来。我写的这个功能很简单,只能打印出找到的第一个电影的下载链接。import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quote#quote()函数,可以帮我们把内容转...原创 2019-04-28 16:46:21 · 6884 阅读 · 0 评论 -
02.爬虫---解析数据和提取数据---BeautifulSoup
BeautifulSoup不是Python库,需要单独安装-pip install BeautifulSoup4 #Mac是pip3一、解析数据 bs对象:bs对象=BeautifulSoup(要解析的文本,'解析器'), 其中,要解析的文本必须是字符串!后面的参数用来标识解析器,现在用的是一个Python内置库:html.parser。(它不是唯一的解析器,但是比较简单的)...原创 2019-04-28 16:40:32 · 1870 阅读 · 0 评论 -
01.初识爬虫---获取数据---Response对象的常用属性
1. 爬虫的工作原理:(获取数据)当你决定去某个网页时,爬虫可以模拟浏览器去向服务器发送请求 (解析数据)等服务器响应后,爬虫可以代替浏览器帮我们解析数据 (提取数据)接着爬虫可以根据我们设定的规则批量提取相关数据, (储存数据)最后爬虫可以批量把数据存储到本地2. 获取爬虫:requests.get()方法import requests #引入requests库URL...原创 2019-04-28 14:10:59 · 4184 阅读 · 2 评论