SoRA数据家-优快云博客

原创影刀excel操作-多个sheet对应copy到多个sheet中

影刀怎么把多个sheet的表格分别copy到另外一张表的多个对应的sheet中

2024-11-13 18:31:01 570

原创简易分布式爬虫系统

随着互联网高速发展，海量信息爬取用于不同场景中，分布式爬虫系统广泛应用于大型爬虫项目中，面对海量待抓取网页，采用分布式架构，能在较短时间内完成抓取工作，多台机器同时爬取数据获取效率更高。本项目中的分布式爬虫系统，主要借助pycharm开发工具开发的简易分布式爬虫系统。分布式的实现主要依赖scrapy-redis，主从分布式爬虫。redis数据库用作数据持久化操作与消息队列。数据的存储采用MongoDB数据库。数据的可视化主要由Flask、Echart、WorldCloud等技术。技术栈Python。

2022-12-29 14:37:49 1428

转载 Hadoop分布式集群时间同步（ntp）配置

因为服务器会定期和公网时间进行校准。如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

2022-11-15 23:37:56 1411

原创 Hadoop-HDFS的API案例实操

4.在pom.xml文件中导入依赖（这边不做过多解释，导入时看清楚自己的hadoop版本）1.在本机中配置HADOOP_HOME的环境变量。3.创建Maven工程。2.配置PATH路径。

2022-11-15 00:04:24 975

原创 [算法]寻找两个正序数组的中位数

由于A[k/2−1] 和 B[k/2−1] 的前面分别有 A[0..k/2−2] 和 B[0..k/2−2]，即 k/2−1 个元素，对于 A[k/2−1] 和 B[k/2−1] 中的较小值，最多只会有 (k/2−1)+(k/2−1)≤k−2 个元素比它小，那么它就不能是第 k 小的数了。3. 根据中位数的定义，当 m+n 是奇数时，中位数是两个有序数组中的第 (m+n)/2 个元素，当 m+n 是偶数时，中位数是两个有序数组中的第 (m+n)/2 个元素和第 (m+n)/2+1 个元素的平均值。

2022-11-03 11:25:20 343

原创 Spark的WordCount操作过程中出现Exception in thread “main“ java.lang.ArrayIndexOutOfBoundsException: 10582问题

此文章一位评论的博友给出的解释是“因为jdk升级到了1.8 但是原本的paranamer不向上兼容了”添加以下代码到pom.xml文件中。paranamer版本的问题，

2022-10-17 16:34:39 618

原创 Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统，不仅仅是hdfs文件系统，使用范围更广。5.count：命令用于统计指定目录下的目录数、文件数、字节数。4.-df：统计文件系统的容量、可用空间和已用空间信息。- hdfs dfs 只能操作HDFS文件系统。-copyToLocal：从HDFS拷贝到本地。：追加一个文件到已经存在的文件末尾。目录中移动文件（注意区别-get）的另一个路径（注意区别-put）

2022-10-11 20:33:54 4524

原创启动Hadoop时一直提示输入密码的问题（SSH配置）

启动Hadoop时一直提示输入密码的问题，经常弹出要要我输入password。

2022-10-10 10:31:41 3389 2

原创【Scala】集合操作大全

SetMap它们中有多种不同的实现：对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包：不可变集合：scala..可变集合： scala.collection.StringPerdefArrayStringBufferval。

2022-10-09 13:08:44 1250

原创保姆级基础爬虫架构（xpath）

本文将会介绍两种常用的爬虫框架，为想要学习爬虫的小伙伴提供一点方向。

2022-09-25 18:05:30 365

原创【0基础】教你使用Xpath方式提取网页信息

xpath是一套用于解析XML/HTML的语法，它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示xpath使用的第三方库为lxml#1.导入etree类#2.使用html生成etree类对象#3.提取页面目标元素xpath()XPATH语法如下所示路径表达式：谓语什么是谓语？谓语用来查找某个特定节点或者包含某个指定节点，位于被镶嵌在方括号中。

2022-09-25 12:56:30 2517