爬虫
潜水猿
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬取B站视频
今天有点闲,想着爬取一下哔哩哔哩的视频练练手. 说干就干!打开B站,搜索"鸡你太美",大叔就是这么潮流,哈哈.废话不多说,吭哧吭哧开始肝. F12—>Network—>一无所获. 在我的理解中,视频应该有个访问连接的呀,而且放在json格式的文件中,这样我们直接访问资源URL就可以下载到视频了呀. 然而,并没有. 接下里就是长达四五个小时的文献参考以及试错. 在网上看到的都是从up主个人主页里下载视频的,和我的预期有些不符,所以我们就先看前辈们的资料吧. 我们来到一个up主的个人中心,开始吭哧吭原创 2020-06-26 20:27:47 · 2175 阅读 · 0 评论 -
Linux上运行爬虫项目
在阿里云的Linux上安装了docker镜像,然后在docker镜像中运行爬虫项目 首先要有项目. 然后将项目文件放入docker镜像中 然后就运行. 问题一:docker镜像中的Python没有requests第三方库 —>我就pip install requests 结果又遇到没有 pip install —>然后就看怎么能装上pip install 在docker环境中先输入wget --no-check-certificate https://bootstrap.pypa.io/g原创 2020-05-10 06:54:10 · 1125 阅读 · 0 评论 -
正则表达式
再来占个坑原创 2020-04-29 15:38:57 · 171 阅读 · 0 评论 -
有道翻译--爬虫
爬虫基本流程 目标网址 user_agent身份验证 请求头设置 请求体数据 发送请求并接收响应 接收数据简单处理 基本流程中遇到的问题 1. 目标网址的获取 在抓包工具中找到目标网址,或者在浏览器开发者工具中找到网址,不要找错了! 2. 用户主机身份声明 user_agent身份信息,这个比较简单 3.请求头设置 请求头内容用抓包工具可以获得 4.请求体数据 抓包工具中的body表单-...原创 2020-04-28 10:25:01 · 517 阅读 · 2 评论
分享