
大数据spark
我是女孩
这个作者很懒,什么都没留下…
展开
-
pypspark udf函数传入参数
https://stackoverflow.com/questions/37409857/passing-a-data-frame-column-and-external-list-to-udf-under-withcolumnkeyword_list=[ ['union','workers','strike','pay','rally','free','immigration',], ['farmer','plants','fruits','workers'], ['out.原创 2020-09-10 19:34:41 · 838 阅读 · 0 评论 -
spark 数据框转 pandas 数据框 分布式
import pandas as pddef _map_to_pandas(rdds): return [pd.DataFrame(list(rdds))] def topas(df, n_partitions=None): if n_partitions is not None: df = df.repartition(n_partitions) df_pand = df.rdd.mapPartitions(_map_to_pandas).collect() .原创 2020-08-24 15:10:28 · 428 阅读 · 0 评论 -
pyspark 对多列类别特征编码 Pipeline(stages=[ StringIndexer
from pyspark.ml import Pipelinefrom pyspark.ml.feature import StringIndexer, StringIndexerModeldf = spark.createDataFrame([("a", "foo"), ("b", "bar")], ("x1", "x2"))pipeline = Pipeline(stages=[ StringIndexer(inputCol=c, outputCol='{}_index'.forma.原创 2020-08-17 17:13:05 · 1816 阅读 · 0 评论 -
hive创建分区表,进行动态或静态分区插入数据
https://blog.youkuaiyun.com/dax1n/article/details/81568442对于hive分区表插入数据时候,对于分区字段可以自行指定一个静态字段或者根据分区字段的具体值进行插入分区表,对于前者指定一个分区值的插入则成为静态分区插入,而后者根据分区字段的具体值插入则成为动态分区插入。a:静态插入:insert overwrite table ptab PART...原创 2020-04-14 10:55:55 · 3762 阅读 · 0 评论 -
pyspark 操作
1. 日期转时间戳spark_df_from_csv = spark.read.csv('/data1/AIPlatform/look_order_cross_city_new_deepfm_0116_0130_origin.csv', header=True)spark_df_from_csv = spark_df_from_csv.withColumn('parsed_log_tim...原创 2020-02-11 21:34:27 · 136 阅读 · 1 评论 -
ottertune安装实验
1. https://github.com/cmu-db/ottertune/wiki/Linux-Quick-Setup2. ubuntu安装mysqlhttps://www.linuxidc.com/Linux/2017-06/144805.htm3.创建数据库 在OtterTune服务器端,它需要一个数据库来存储所有网站数据。 您可能想在MySQL中创建一个数据库(如...原创 2018-11-18 22:45:39 · 2209 阅读 · 0 评论 -
通过大规模机器学习自动调优数据库参数
目录1. 引言2. 挑战3. 系统概览3.1 举例3.2 假设和限制4. 工作负载识别4.1 统计收集4.2 修剪冗余监控指标5. 识别重要的参数5.1 使用Lasso进行特征选择5.2 依赖5.3 增量参数选择6. 自动调优6.1 工作负载映射6.2 配置推荐7. 实验评估7.1 工作量7.2 训练数据收集7.3 参数数...原创 2018-11-15 20:21:01 · 4838 阅读 · 0 评论 -
java kafka写入数据到HDFS
安装kafka,见我以前的博文https://blog.youkuaiyun.com/u013385018/article/details/80529063向Hdfs写入文件,控制台会输出以下错误信息:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Perm...原创 2018-06-14 10:49:26 · 9168 阅读 · 0 评论 -
单机安装hadoop
一、安装Java在安装 hadoop 之前,请确保你的系统上安装了 Java。使用java -version命令检查已安装 Java 的版本。 查看java 路径,要记住该路径,后面配置hadoop时会用到二、安装hadoop1.创建用于 hadoop 安装的系统帐户hadoop[root@localhost ~]# useradd hadoop[root@localhost ~]# passwd...原创 2018-06-14 10:32:47 · 991 阅读 · 0 评论 -
Hadoop笔记
HADOOP-MapReduce简介 https://blog.youkuaiyun.com/lfsf802/article/details/9011521分布式计算框架Hadoop原理及架构全解http://www.uml.org.cn/bigdata/201712273.aspMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大的方便编程人员在不会分布式并行编程的情况...原创 2018-05-27 22:57:50 · 255 阅读 · 0 评论 -
spark 调用saveAsTextFile 报错NullPointerException
如果本地已经安装了hadoop 一般不会有此问题 如果不愿安装 可按照下述方法解决参考文献https://blog.youkuaiyun.com/ydc321/article/details/523511511)下载需要的文件 winutils.exehttp://social.msdn.microsoft.com/Forums/windowsazure/en-US/28a57efb-082b-424b-8d...转载 2018-04-09 17:06:22 · 1477 阅读 · 0 评论