
爬虫
文章平均质量分 61
荒陌
这个作者很懒,什么都没留下…
展开
-
request库笔记
1.第一节课大体介绍requests import requests r = requests.get("http://weixin.sogou.com/") #request.get基本就能爬取所有的网页了 print(r.status_code) #这个status是200代表成功了,不是200就失败了 print...原创 2018-09-26 22:43:23 · 188 阅读 · 0 评论 -
Scrapy官方文档笔记
1.创建Scrapy项目 首先用cmd命令行去操作,输入 scrapy startproject 项目名 #这里输入的项目名,就是在你输入的目录它会建立一个新的文件夹,这个文件夹里面还是同样名字的一个文件夹,项目新建的时候其实里面只有一个,后来的.idea是被pycharm打开之后pycharm生成的。 那这一步其实也就是决定了文件夹名字,以及在命令栏中决定根目录。 2.然后用py...原创 2018-10-03 19:54:01 · 1190 阅读 · 0 评论 -
Beautiful Soup库笔记
这个库的使用常规是两行代码 from bs4 import BeautifulSoup soup = BeautifulSoup("html","html.parser") #前面那个就是打开html界面,后面是解释器,这个自带的够用,也可以用别的 运行完了之后,这个soup应该就可以调取网页上的所有内容,把那个网页看成是用<body><p>,这些东西组成的网页,...原创 2018-09-27 10:33:02 · 192 阅读 · 0 评论 -
re正则表达式笔记
正则表达式是通用的字符串表达框架,用一个正则表达好似可以表达多个符合同一个规律的字符串,它与一组字符串是等价关系。 正则表达式基本就是用于检索的。 记几个常用的正则吧: | 或符号 ? 前面这个重复0次或1次 + 前面的重复1次到无限次 * 重复0次到无限次(.*中间任意填充) {...原创 2018-10-02 10:11:37 · 463 阅读 · 0 评论 -
Fiddler使用笔记
Fiddler基础知识 Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改。 代理就是在客户端和服务器之间设置一道关卡,客户端先将请求数据发送出去后,代理服务器会将数据包进行拦截,代理服务器再冒充客户端发送数据到服务器;同理,服务器将响应数据返回,代理服务器也会将数据拦截,再返回给客...原创 2018-10-08 15:37:08 · 225 阅读 · 0 评论