自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 hadoop Zookeeper Phoenix HBase Hive Mapreduce HDFS spark yarn之间的关系

速度依旧不快,因为批处理有延迟(MapReduce必须严格按Map → Shuffle(网络传输)→ Reduce顺序执行,​​后一阶段必须等前一阶段100%完成​​才能开始(如Reduce必须等所有Map任务完成)每个阶段结束都会把​​中间结果写入磁盘​​(防止失败重算),但磁盘I/O比内存慢百倍);这三个问题解决后,我们又发现,有时候 spark 和 mapreduce 会抢占资源(spark 不会完全替代 mapreduce),于是我们找了一个指挥官叫 yarn,来处理他们的资源调度。

2025-08-01 13:37:42 42

原创 spark 调优

计算集群可用资源总量(YARN队列内存/CPU),确保 spark.executor.instances * (spark.executor.memory + spark.executor.cores) 不超过队列资源的 ‌1/3~1/2‌,避免资源耗尽影响其他任务‌。Task延迟高‌ → 提高并行度(spark.default.parallelism 设为 executor数 × 核数 × 2-3‌);云平台优化‌:阿里云等支持 spark.adb.acuPerApp 自动推导资源配置‌;

2025-07-29 11:27:32 615

原创 spark shuffle

在Apache Spark中,数据分区的shuffle操作是执行大规模数据处理的核心机制之一,特别是在执行诸如reduceByKey、groupByKey、join等操作时。在执行连接操作时,需要将匹配的键值对分配到同一个节点上。在进行shuffle操作之前,通常会有一个map阶段,其中每个节点上的数据会根据某个键(key)被映射到不同的分区(partition)。对于join操作,Spark还支持动态分区剪枝技术,该技术可以在读取join操作的右侧表时只读取必要的分区,从而减少IO开销和网络传输。

2025-07-29 11:12:05 399

转载 pyhanlp的安装 Mac

conda install -c conda-forge jpype1pip install pyhanlp安装成功后,第一运行时,会下载600多兆的内容。要保证网速。github 的官方地址:https://github.com/hankcs/pyhanlp

2020-12-18 13:09:27 399

转载 python requests结果乱码问题

import requests 爬取阳光电影html = requests.get("https://www.ygdy8.com/index.html")print(html.text)运行发现,打印乱码.<a href='/html/gndy/jddy/20160320/50541.html'>IMDBÆÀ·Ö8·Ö×óÓÒӰƬ400Óಿ</a><br/><a href='/html/gndy/jddy/20200627/60172.html

2020-10-17 20:28:21 535

原创 Mac系统,Navicat连接Mysql时报错1045,2003

1.首先确认mysql服务启动。安装之后打开系统偏好设置(最下面),然后点击MySQL,开启mysql2.如果1没问题。然后查看自己的端口,密码填写是否正确。查询默认端口从终端启动mysql。输入命令“/usr/local/mysql/bin/mysql -u root -p”,然后会让输入mysql密码。即可进入mysql。进入mysql后,输入命令“show global variables like ‘port’;”,即可返回默认端口。密码为mysql中root用户对应的密码。忘

2020-10-13 20:45:10 987 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除