
爬虫
文章平均质量分 52
嘿、否定先生
这个作者很懒,什么都没留下…
展开
-
request进阶
得到session登陆7k小说网url数据不在页面源代码中找到数据的url找到该页面的url下面是错误做法这是全新的url。不知道 之前的cookie会话知道cookie如果直接请求。原创 2022-09-26 16:34:05 · 104 阅读 · 0 评论 -
Xpath入门
author 后面俩个// 拿到 里面所有nick 的值。如果想要取第一个 xpath 顺序是从1开始的。提取a标签里href值为daopao的text。只有一个/ 是找儿子。取得文本 text() 拿文本。在网页拿到xptah路径。原创 2022-09-24 17:53:16 · 241 阅读 · 0 评论 -
bs_4基本使用
pip install bs4把页面源代码 交给 beautifulsoup 处理生成 bs对象 并且制定html 解析html.parser 如果没有会有警告 这句话意思是 告诉他 是html从bs对象中查找对象page.find(“div”,class_ = “clearfix”) # class 是关键字 在后面加下划线 区分另一种方法 可以用字典格式第一次找到的数据如果只想要数据 在进行划分再把他写入文件f = open(“caijia.csv”,mode=“w”)csvwrite原创 2022-09-23 17:50:51 · 308 阅读 · 0 评论 -
数据解析说明
给该数据取一个名字 里面为 名字 前面需要➕?P. 并且学要用()。正则表达式下面有波浪线 如果想没有 前面加个r。尽可能少的让 * 匹配少的字符。不然 会出现几种情况。原创 2022-09-19 18:25:20 · 103 阅读 · 0 评论 -
Request入门
临时使用时 把some-package 换成你想要的包就可以。有的网站上post请求 比如 fanyi.baidu.com。如果感觉下载太慢 用国内镜像 百度 pip清华源。访问上面数据 选择 headers里的链接。找到访问该页面 请求头里的 ua。参数太长 选择重新封装参数。在pycharm 终端安装。被拦截了 需要伪装成浏览器。查看数据选择 xhr 模式。第一次返回一个 框架。每次滚动都会加载20。只改变了 start。原创 2022-09-19 16:37:38 · 137 阅读 · 0 评论 -
第一个爬虫程序
用程序模拟浏览器,输入一个网址,从该网址中 获取资源或内容需要 导入url请求包显示出来的是字节 需要还原成字符串进行解码。原创 2022-09-19 14:57:21 · 77 阅读 · 0 评论