
数据采集与预处理
文章平均质量分 59
码上行舟
接受自己的普通,然后全力以赴的出众
展开
-
爬虫实战selenium模板从开发到部署
在开始之前需要先对网站进行分析,是否需要登录,防爬做的怎么样,如果网站的防爬做的比较好,并且要爬的数据量并不大,那就选择最简单最通用的方式,也就是用selenium做。原创 2023-01-05 18:16:01 · 2238 阅读 · 1 评论 -
房天下验证码
文章目录验证码问题准备工作程序流程selenium 防识别完整代码验证码问题我们的目标是使用程序来识别滑动验证码的验证。查看 html 可以看到这有两张图片,我们可以把这两张图片下载下来,然后用模板匹配获得缺口位置。准备工作本次我们使用 selenium 模拟浏览器,浏览器为 Chrome。使用 cv2 来实现模板匹配。请确保已正确安装。程序流程使用 selenium 定位两张图片,并用 requests 下载到本地# 背景图片bg = self.driver.find_eleme原创 2021-06-08 21:51:41 · 1465 阅读 · 3 评论 -
flume 单数据源多出口案例(Sink组)
按照拓扑图搭建 agent准备工作在/usr/local/flume/job目录下创建group2文件夹创建flume-netcat-flume.conf,flume-flume-console1.conf,flume-flume-console2.confflume-netcat-flume.conf# Name the components on this agenta1.sources = r1a1.channels = c1a1.sinkgroups = g1a1.sinks原创 2021-01-07 22:03:58 · 291 阅读 · 0 评论 -
flume 单数据源出口案例(选择器)
按照拓扑图搭建 agent准备工作在/usr/local/flume/job目录下创建group1文件夹在/usr/local/flume/job/group1目录下创建flume3文件夹,aaa.txt文件在 group1 下创建 flume-file-flume.conf,flume-flume-hdfs.conf,flume-flume-dir.conf 文件开启 hadoop 集群:start-all.shflume-file-flume.conf# Name the compo原创 2021-01-07 21:05:34 · 192 阅读 · 0 评论 -
flume的三个简单案例
文章目录简介监控端口数据案例实时读取本地文件到 HDFS 案例实时读取目录文件到 HDFS 案例netstat 用法简介监控端口数据案例案例需求:首先启动 Flume 任务,监控本机 44444 端口,服务端;然后通过 netcat 工具向本机 44444 端口发送消息,客户端;最后 Flume 将监听的数据实时显示在控制台。实现步骤:安装 netcat 工具sudo apt-get -y install netcat-traditional判断 44444 端口是否被占用s原创 2021-01-06 21:26:41 · 466 阅读 · 0 评论 -
爬虫练习——爬取2020kpl王者荣耀职业联赛
文章目录任务完整代码完成效果常见错误任务使用任意方法爬取王者荣耀赛程爬取如下图所示数据完整代码from selenium import webdriverimport time class match: def __init__(self): self.time = '' # 比赛时间 self.status = '' # 比赛状态 self.place = '' # 比赛城市原创 2020-11-29 09:10:21 · 3088 阅读 · 1 评论 -
selenium练习——爬取纵横中文网
文章目录任务相关链接代码实现完成效果常见问题任务使用 selenium 爬取纵横小说网任意 1 本小说熟悉 selenium 的使用方法(注意:这仅仅是做为练习,爬取这个网站没有必要使用 selenium)相关链接使用 requests 爬取纵横中文网使用 scrapy 爬取纵横中文网代码实现from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWait# from sele原创 2020-10-26 09:00:30 · 934 阅读 · 4 评论 -
scrapy爬取纵横中文网
文章目录CREATE DATABASE IF NOT EXISTS `zongheng`;USE `zongheng`;/*Table structure for table `novel` */DROP TABLE IF EXISTS `novel`;CREATE TABLE `novel` ( `id` INT(11) NULL AUTO_INCREMENT, `novelName` VARCHAR(255) COLLATE utf8_bin NOT NULL, `aut原创 2020-10-24 10:07:15 · 895 阅读 · 0 评论 -
Selenium 的安装
Selenium简介安装访问页面练习待解决的问题简介Selenium 是一个自动化测试工具,利用它可用驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此中抓取方式非常有效。安装安装 seleniumpip install selenium这样做还不够,因为我们还需要用浏览器(如 Chrome、Firefox 等)来配合 Selenium 工作。谷歌http://chromedriv原创 2020-10-18 16:46:30 · 283 阅读 · 1 评论 -
爬虫练习——爬取笔趣阁
爬取笔趣阁任务ip 代理的设置完整代码效果总结任务爬取上面这 4 本小说使用 requests 库不能漏掉 1 章在有限的时间内爬完以下面这个形式保存ip 代理的设置免费 ip 代理网站:https://seofangfa.com/proxy/http://www.data5u.com/代理测试网站:http://httpbin.org/测试代理是否可用import requestsproxy = ['221.131.158.246:8888','183.24原创 2020-10-17 10:22:22 · 78164 阅读 · 0 评论 -
scrapy爬取小说
文章目录创建项目代码实现效果创建项目scrapy startproject book # book 为项目名文件结构代码实现mySpider.pyimport scrapyfrom book.items import BookItem''' 小说目录第1章<ul class="cf"> <li data-rid="1"> <a href="//read.qidian.com/chapt原创 2020-10-16 16:55:48 · 730 阅读 · 7 评论 -
爬虫练习——爬取纵横小说网
爬取纵横小说网任务代码实现缺点解决方法任务爬取月票榜并把小说保存到本地效果代码实现import requestsimport refrom bs4 import BeautifulSoupimport osimport threadingdef getHTMLText(url,timeout = 100): try: r = requests.get(url) r.raise_for_status() r.encodin原创 2020-10-10 10:21:59 · 1602 阅读 · 1 评论 -
爬取小说
爬取小说任务分析输出效果任务爬取起点小说网中任意一篇文章的目录(以三体为例)把文章保存到文件中分析首先右键查看网页源代码用正则表达式匹配出文章的目录及相关信息把源代码复制到 在线正则表达式测试器找到要匹配的位置与下一章对比,把不同的用 .* 匹配<li data-rid="\d*"><a href=".*?" target="_blank" data-eid="qd_G55" data-cid=".*?">.*?</a>把要保存的用(原创 2020-09-29 22:13:31 · 552 阅读 · 0 评论