
数据爬取
doudoudedi
My journey is the sea of star
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
考研学校的爬虫(自己写的可能会有点菜
最近因为准备考研所以就把要考研的学校的招生简章给爬了下来 开机启动 我爬 我怕我忘了最新的学校通告所以才写的 首先确定目标~~ url="你要的学校" 然后这里我观察原创 2020-05-18 11:40:22 · 874 阅读 · 0 评论 -
requests模块总结
get 先导入模块 import requests rep=requests.get(url) 返回一个对象可调用的常用方法有 rep.text//返回网页的字符串文本会有编码问题 rep.content//返回访问的二进制文件常用于爬取图片等文件 rep.encoding//返回页面的编码 rep.status_code//返回页面的状态码 rep.header//返回相应头字典的形式 rep.ok//查看是否登入成功 r.json//这里搞一篇文章单独讲 url里面传递参数 pararms={'id原创 2020-05-12 22:47:16 · 324 阅读 · 0 评论 -
爬取网页爆破目录的爬虫
今天被SCTF的高质量题目给打败了,好难萌新表示做不出来 诶诶诶~~~~~ 所以分享一个自己写的shell可以爆破目录爬取爆破的信息 import requests import os path = "H:/dict" #这里上自己的字典 files= os.listdir(path) for file in files: if not os.path.isdir(file): ...原创 2019-06-23 21:44:14 · 1451 阅读 · 2 评论 -
爬虫关于BeautifulSoup库
这几天挺累的~~ 就分享一些BeutifulSoup库的使用吧 本人写爬虫时经常遇到一些编码问题所以就写这一篇 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。 举一个列子(用别人的) from bs4 import BeautifulSoup html = ''' <html><head><title&g...原创 2019-06-27 22:43:26 · 195 阅读 · 0 评论