
爬虫
Chrishany
菜鸟一只,努力中。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python之网络爬虫(4)
本博客内容来自韦玮老师网络爬虫课堂笔记,仅用于个人学习和复习,请勿转载用于其他商业用途。 1、爬虫防屏蔽手段之代理服务器 使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。 import urllib.request def use_proxy(url, proxy_addr): # 设置代理服务器:49.71.133.38为代理服务器地址,9999为代理服务器端...原创 2019-11-18 20:38:21 · 461 阅读 · 0 评论 -
Python之网络爬虫(3)
本博客内容来自韦玮老师网络爬虫课堂笔记,仅用于个人学习和复习,请勿转载用于其他商业用途。 浏览器伪装技术原理 当我们爬优快云博客,我们会发现返回403,因为对方服务器会对爬虫进行屏蔽。此时,我们需要伪装成浏览器才能爬取。 浏览器伪装,我们一般通过报头进行。 我们还是用TED官网进行试验。首先我们输入https://www.ted.com/#/,然后按F12键,在network中任意...原创 2019-11-17 13:33:47 · 238 阅读 · 0 评论 -
Python之网络爬虫(2)
本博客内容来自韦玮老师网络爬虫课堂笔记,仅用于个人学习和复习,请勿转载用于其他商业用途。 Urllib库(二) 1、自动模拟HTTP请求 客户端如果要与服务器端进行通信,需要通过http请求进行,http请求有很多种,这里只讲post和get两种请求方式。登陆、搜索某些信息的时候会用到。 import urllib.request keyword = "Python" url = "...原创 2019-11-17 00:19:15 · 179 阅读 · 0 评论 -
Python之网络爬虫(1)
本博客内容来自韦玮老师网络爬虫课堂笔记,仅用于个人学习和复习,请勿转载用于其他商业用途。 Urllib库(一) 一个简单的小作业 将https://read.douban.com/provider/all网址中所有的出版社信息都爬取出来。网站图片如下: 可以看到,网页中有许多的出版社。下面我们用代码将所有出版社的名字爬取出来,并保存在文件中。 import urllib.req...原创 2019-11-16 22:22:51 · 293 阅读 · 0 评论 -
正则表达式(基础)
本文来自李宁老师《Python从菜鸟到高手》中正则表达式相关内容,仅供自己复习,请勿转载并用于其他商业用途。 正则表达式就是通过一个文本模式来匹配一组符合条件的字符串 使用match方法匹配字符串 如果文本模式只是一个普通的字符串,那么待匹配的字符串和文本模式字符串在完全相等的情况下,match方法会认为匹配成功。match方法用于指定文本模式和待匹配的字符串。该方法的前...原创 2019-10-15 22:05:20 · 435 阅读 · 0 评论