
爬虫
文章平均质量分 80
禅墨云
一个有趣又痴心妄想的努力男孩!
展开
-
Requests PK 豆瓣&肯德基|6
Requests PK 豆瓣&肯德基 文章目录Requests PK 豆瓣&肯德基写在前面爬取豆瓣电影排行肯德基餐厅位置写在后面 写在前面 你好,我是禅墨! 之前我们主要学习了Requests模块,掌握的怎么样呢, 今天就做两个小练习,不多说任何废话! 不知道步骤的可以翻看之前的文章! Requests第一血 简易网页采集 破解百度翻译 爬取豆瓣电影排行 在这里以喜剧为例: # -*- coding:utf-8 -*- import json import requests if __原创 2021-01-31 15:26:53 · 329 阅读 · 0 评论 -
破解百度翻译|5
破解百度翻译|5 写在前面 你好,我是禅墨! 转眼间就到了周五了,happy啊! 上篇文章我们做了一个简易得网页采集器,感觉没啥难度,那这次我们就再做一个没啥难度的东西,搞一下百度翻译,想了想,还是最后把程序打一下包,作为一个小工具使用! 指定url及响应分析 你看,爬虫第一步总是要指定URL,但是这个是需要我们在浏览器中寻找的。 打开浏览器(以Chrome为例)找到百度翻译首页,思考一下,首页会是我们要破解的内容吗?那我们需要获取的内容是哪些呢?不妨我们输入一个单词,比如说:cat,这时我们看一下页面原创 2021-01-29 11:52:14 · 912 阅读 · 1 评论 -
简易网页采集|4
简易网页采集|4 文章目录简易网页采集|4写在前面编码顺序指定urlUA检测与伪装程序源码写在后面写在后面 写在前面 你好,我是禅墨! 之前啊,我们接触到了requests模块,知道他是干什么的,但是要掌握一个模块,就要去练习,去实战。 之后呢,我们一起做五个小实战项目加以掌握: 简易网页采集器,爬取百度指定词条对应的搜索结果页面 破解百度翻译 爬取豆瓣电影分类排行榜,https://movie.douban.com/ 中的电影详情数据 爬取肯德基餐厅查询 https://www.kfc.com.cn原创 2021-01-28 12:45:09 · 604 阅读 · 0 评论 -
Requests第一血|3
Requests第一血|3 文章目录Requests第一血|3写在前面网络请求模块Requests模块的编码顺序环境安装实战编码文件操作说明写在后面写在后面 写在前面 你好,我是禅墨! 今天发现一个有趣的现象,在家人眼里,我玩电子就是一个修手机、电器的! 然后去问了别人,他说他学的是农工,然后他妈妈就以为他以后毕业是开拖拉机的。 那么各位看官们,在你家长眼里,你所学的专业毕业后是 干什么的,我们评论区见! 从这篇文章开始,才算真正意义上的和代码打交道了,写代码之前,首先就要选择一个编辑器,哪个好用呢,当然是原创 2021-01-27 18:46:14 · 405 阅读 · 0 评论 -
HTTP&HTTPS协议|2
HTTP&HTTPS协议 写在前面 你好,我是禅墨! 今天我们继续进行爬虫教程的第二篇文章,HTTP&HTTPS协议! HTTP&HTTPS这两种超文本传输协议,大家或多或少都听说过,但是你真的了解他们吗? 你知道在网络爬虫中我们都怎么去运用吗?今天,我们就围绕这两种协议进行探究! HTTP协议 概念:服务器与客户端进行数据交互的一种形式。就比如人与人之间进行语言沟通 常用请求头信息 **User-Agent ????*当前请求载体的身份标识,包含设备,浏览器等信息 *原创 2021-01-24 15:56:27 · 207 阅读 · 0 评论 -
初探爬虫|1
文章目录初探爬虫写在前面什么是爬虫爬虫的价值爬虫合法性探究爬虫在使用场景中分类反爬机制反反爬策略robots.txt君子协议 初探爬虫 写在前面 好久,没见!你好,我是禅墨! 2020是不幸的一年,还好已经过去,现在是2021!这是一个新的教程系列,就叫做爬虫与局子吧,哈哈哈!更新周期呢,得看心情,毕竟现在也是在复习! 去年做了一个Python进阶系列,只发了第一阶段的学习文章,其实后面的几个阶段,也早就已经写好,只是由于种种原因没有来的及发,呃~~,好吧种种原因就是“懒”!后续我会依次上传的, 先来思考以原创 2021-01-24 15:48:45 · 172 阅读 · 0 评论