Spark
jin_tmac
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
xgboost: Why not implement distributed XGBoost on top of spark
的代码可以使开发人员更容易理解和维护分布式版本的代码。由于大部分代码结构和逻辑与单机版相似,只是在分布式计算和通信方面进行了扩展,因此可以降低开发和维护的难度,减少出错的可能性。已经在算法和优化方面做了大量的工作,如采用了近似直方图算法、对目标函数进行二阶泰勒展开、实现了可并行的近似直方图算法、数据预先排序并以块的形式保存等,这些优化使得单机。通过在分布式版本中重用这些优化,可以充分利用已有的成果,减少开发和调优的工作量。高效的核心算法和优化策略:单机版的 XGBoost。原创 2024-12-31 11:19:55 · 1442 阅读 · 0 评论 -
hive 导入导出csv文件
首先在hive中创建自己的table, 并且设置以逗号分隔。确定tmp.hb_label_C表的分布式文件路径。将CSV文件导入到hive数据库,具体操作如下,最后在linux命令行输入。原创 2022-09-14 12:19:25 · 7456 阅读 · 0 评论 -
Spark addFile()和hdfs上传文件对比
在用spark进行集群分布式模型打分等操作时。可以有两种方式上传文件sc.addFile和hdfs上。原创 2022-07-27 14:49:46 · 1323 阅读 · 0 评论 -
pyspark基于python虚拟环境运行
1.背景目前大数据使用的是Amazon EMR集群,该集群可根据计算需求变化灵活扩展或收缩集群,就会存在一个问题:当spark任务提交之后,EMR集群会根据计算的需求进行扩展,新扩展的机器上python环境各不相同,并且每次扩展的机器ip不相同(不是同一台机器),对某些第三方包,例如:pandas 还会依赖numpy,并且对版本还有一定要求,必须大于15.4;此时python依赖的冲突就会导致spark任务执行失败。2.解决方案鉴于以上问题,通过搭建独立的Python运行环境可以解决以上问题,同时还可转载 2022-05-26 15:05:25 · 1571 阅读 · 0 评论 -
xgboost4j报错:Check failed:preds.Size()==info.labels_.Size()
运行过程中报出以下错误:ml.dmlc.xgboost4j.java.XGBoostError: [14:15:26] D:\a\xgboost\xgboost\src\objective\regression_obj.cu:36: Check failed: info.labels.Size() == preds.Size() (51922 vs. 103844) : Invalid shape of labels.报错发生原因不清楚。解决方案是:xgboost的配置参数里,如果指定了“ob转载 2022-04-20 14:17:45 · 1886 阅读 · 1 评论 -
Spark、Hive常见问题整理
1、sc.addFile() 、pyspark.SparkFiles.get()把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径,从而能够保证driver和每个worker都能正确访问到文件。......原创 2022-04-01 16:20:00 · 2552 阅读 · 0 评论 -
Sparksql行列转换
首先创建一个测试数据from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSessionspark=SparkSession.builder.appName('TestAPP') .enableHiveSupport() .getOrCreate()df = spark.createDataFrame([('math','alice',88), ('chinese','alice',92原创 2022-04-12 14:26:45 · 3542 阅读 · 0 评论
分享