自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 影刀excel操作-多个sheet对应copy到多个sheet中

影刀怎么把多个sheet的表格分别copy到另外一张表的多个对应的sheet中

2024-11-13 18:31:01 570

原创 简易分布式爬虫系统

随着互联网高速发展,海量信息爬取用于不同场景中,分布式爬虫系统广泛应用于大型爬虫项目中,面对海量待抓取网页,采用分布式架构,能在较短时间内完成抓取工作,多台机器同时爬取数据获取效率更高。本项目中的分布式爬虫系统,主要借助pycharm开发工具开发的简易分布式爬虫系统。分布式的实现主要依赖scrapy-redis,主从分布式爬虫。redis数据库用作数据持久化操作与消息队列。数据的存储采用MongoDB数据库。数据的可视化主要由Flask、Echart、WorldCloud等技术。技术栈Python。

2022-12-29 14:37:49 1428

转载 Hadoop分布式集群时间同步(ntp)配置

因为服务器会定期和公网时间进行校准。如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。

2022-11-15 23:37:56 1411

原创 Hadoop-HDFS的API案例实操

4.在pom.xml文件中导入依赖(这边不做过多解释,导入时看清楚自己的hadoop版本)1.在本机中配置HADOOP_HOME的环境变量。3.创建Maven工程。2.配置PATH路径。

2022-11-15 00:04:24 975

原创 [算法]寻找两个正序数组的中位数

由于A[k/2−1] 和 B[k/2−1] 的前面分别有 A[0..k/2−2] 和 B[0..k/2−2],即 k/2−1 个元素,对于 A[k/2−1] 和 B[k/2−1] 中的较小值,最多只会有 (k/2−1)+(k/2−1)≤k−2 个元素比它小,那么它就不能是第 k 小的数了。3. 根据中位数的定义,当 m+n 是奇数时,中位数是两个有序数组中的第 (m+n)/2 个元素,当 m+n 是偶数时,中位数是两个有序数组中的第 (m+n)/2 个元素和第 (m+n)/2+1 个元素的平均值。

2022-11-03 11:25:20 343

原创 Spark的WordCount操作过程中出现Exception in thread “main“ java.lang.ArrayIndexOutOfBoundsException: 10582问题

此文章一位评论的博友给出的解释是“因为jdk升级到了1.8 但是原本的paranamer不向上兼容了”添加以下代码到pom.xml文件中。paranamer版本的问题,

2022-10-17 16:34:39 618

原创 Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。- hdfs dfs 只能操作HDFS文件系统。-copyToLocal:从HDFS拷贝到本地。:追加一个文件到已经存在的文件末尾。目录中移动文件(注意区别-get)的另一个路径(注意区别-put)

2022-10-11 20:33:54 4524

原创 启动Hadoop时一直提示输入密码的问题(SSH配置)

启动Hadoop时一直提示输入密码的问题,经常弹出要要我输入password。

2022-10-10 10:31:41 3389 2

原创 【Scala】集合操作大全

SetMap它们中有多种不同的实现:对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包:不可变集合:scala..可变集合: scala.collection.StringPerdefArrayStringBufferval。

2022-10-09 13:08:44 1250

原创 保姆级基础爬虫架构(xpath)

本文将会介绍两种常用的爬虫框架,为想要学习爬虫的小伙伴提供一点方向。

2022-09-25 18:05:30 365

原创 【0基础】教你使用Xpath方式提取网页信息

xpath是一套用于解析XML/HTML的语法,它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示xpath使用的第三方库为lxml#1.导入etree类#2.使用html生成etree类对象#3.提取页面目标元素xpath()XPATH语法如下所示路径表达式:谓语什么是谓语?谓语用来查找某个特定节点或者包含某个指定节点,位于被镶嵌在方括号中。

2022-09-25 12:56:30 2517

原创 Scrapy基础入门学习

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

2022-09-23 08:55:00 523

原创 Hadoop2.x配置历史服务器时遇到的问题

配置步骤如下:(具体流程来自尚硅谷教案)在该文件里面增加如下配置。

2022-08-05 01:10:43 690 1

原创 ZooKeeper集群启动停止脚本步骤以及异常处理

ZooKeeper集群启动停止脚本步骤以及异常处理

2022-08-02 13:04:18 641

原创 Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)

Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)

2022-08-01 17:19:30 905

原创 用Python对淘宝用户行为数据的分析

用户行为数据分析

2022-07-12 11:48:14 11450 15

原创 用python做数据分析时使用pd.to_datetime函数时间戳从1970年开始的情况

python数据分析常见问题

2022-07-09 11:39:36 1906 2

原创 排序算法(python版)代码详解

6.快速排序目录1.冒泡排序2.选择排序3.插入排序4.希尔排序5.归并排序

2022-02-08 15:43:56 1131 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除