- 博客(18)
- 收藏
- 关注
原创 简易分布式爬虫系统
随着互联网高速发展,海量信息爬取用于不同场景中,分布式爬虫系统广泛应用于大型爬虫项目中,面对海量待抓取网页,采用分布式架构,能在较短时间内完成抓取工作,多台机器同时爬取数据获取效率更高。本项目中的分布式爬虫系统,主要借助pycharm开发工具开发的简易分布式爬虫系统。分布式的实现主要依赖scrapy-redis,主从分布式爬虫。redis数据库用作数据持久化操作与消息队列。数据的存储采用MongoDB数据库。数据的可视化主要由Flask、Echart、WorldCloud等技术。技术栈Python。
2022-12-29 14:37:49
1428
转载 Hadoop分布式集群时间同步(ntp)配置
因为服务器会定期和公网时间进行校准。如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。
2022-11-15 23:37:56
1411
原创 Hadoop-HDFS的API案例实操
4.在pom.xml文件中导入依赖(这边不做过多解释,导入时看清楚自己的hadoop版本)1.在本机中配置HADOOP_HOME的环境变量。3.创建Maven工程。2.配置PATH路径。
2022-11-15 00:04:24
975
原创 [算法]寻找两个正序数组的中位数
由于A[k/2−1] 和 B[k/2−1] 的前面分别有 A[0..k/2−2] 和 B[0..k/2−2],即 k/2−1 个元素,对于 A[k/2−1] 和 B[k/2−1] 中的较小值,最多只会有 (k/2−1)+(k/2−1)≤k−2 个元素比它小,那么它就不能是第 k 小的数了。3. 根据中位数的定义,当 m+n 是奇数时,中位数是两个有序数组中的第 (m+n)/2 个元素,当 m+n 是偶数时,中位数是两个有序数组中的第 (m+n)/2 个元素和第 (m+n)/2+1 个元素的平均值。
2022-11-03 11:25:20
343
原创 Spark的WordCount操作过程中出现Exception in thread “main“ java.lang.ArrayIndexOutOfBoundsException: 10582问题
此文章一位评论的博友给出的解释是“因为jdk升级到了1.8 但是原本的paranamer不向上兼容了”添加以下代码到pom.xml文件中。paranamer版本的问题,
2022-10-17 16:34:39
618
原创 Hadoop命令大全
hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。- hdfs dfs 只能操作HDFS文件系统。-copyToLocal:从HDFS拷贝到本地。:追加一个文件到已经存在的文件末尾。目录中移动文件(注意区别-get)的另一个路径(注意区别-put)
2022-10-11 20:33:54
4524
原创 【Scala】集合操作大全
SetMap它们中有多种不同的实现:对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包:不可变集合:scala..可变集合: scala.collection.StringPerdefArrayStringBufferval。
2022-10-09 13:08:44
1250
原创 【0基础】教你使用Xpath方式提取网页信息
xpath是一套用于解析XML/HTML的语法,它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示xpath使用的第三方库为lxml#1.导入etree类#2.使用html生成etree类对象#3.提取页面目标元素xpath()XPATH语法如下所示路径表达式:谓语什么是谓语?谓语用来查找某个特定节点或者包含某个指定节点,位于被镶嵌在方括号中。
2022-09-25 12:56:30
2517
原创 Scrapy基础入门学习
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
2022-09-23 08:55:00
523
原创 Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)
Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)
2022-08-01 17:19:30
905
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人