
大数据开发
文章平均质量分 52
Jumay0612
一个热爱生活,热爱编程的程序媛,擅长数据处理和分析,目前在做机器学习和数据挖掘方向。喜欢leetcode,虽然脑子不灵光,一直保持锻炼中,防止生锈。。。
展开
-
Redis踩坑系列(二)Spark批量Load大量数据到Redis,主从同步问题
需求每天定时批量刷新大量数据进RedisRedis集群是哨兵模式主从同步时间不做要求现象Spark批量load数据到redis,主节点没问题,大概10分钟可以写入完成网络IO负载较大,从节点报警is stop,主节点报主从同步异常从节点重启后,从磁盘load数据入内存,十几分钟时间后redis集群恢复正常只要有大量的写都会导致从节点stop,主节点没问题定位分析日志316495:C 19 Mar 16:18:38.002 * RDB: 9198 MB of memory u原创 2021-03-19 18:21:22 · 570 阅读 · 0 评论 -
Redis踩坑系列(一)Spark Redis连接池报错Pool not open解决
用Spark将大量HDFS数据批量写入Redis需求批量读入HDFS离线数据将数据按照partition分区写入redis中redis集群是哨兵模式。使用pipelined方法代码import java.util.Propertiesimport java.utilimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport org.apache.spark.rdd.RDDimport redis.clients原创 2021-03-16 14:49:01 · 5609 阅读 · 0 评论 -
Spark开发(一)-- 分区,分桶和数据重分区方法
分区:Partitioning:分区数据通常用于水平分配负载,这具有性能优势,并有助于以逻辑方式组织数据。分区表会更改持久化数据的结构,现在将创建反映此分区结构的子目录。这可以显着提高查询性能,但前提是分区方案反映了常见的过滤 。根据指定列进行分区存储,每个列值一个文件结构。df.write.partitionedBy(column*) .parquet("")分桶:Bucketing:Bucketing是另一种将数据集分解为更易于管理的部分的技术 . 根据提供的列,将整个数据.原创 2020-09-24 17:20:07 · 2570 阅读 · 0 评论 -
Kafka 相关命令和问题记录
一、问题Kafka UI fetched统计问题开发完了代码,洋洋洒洒部署上线。一切都很OK。程序正常启动,kafka生产数据正常发送了。然后查看Kafka的实时曲线图。刚生产的数据,还没有通知消费端消费,却发现《各 Kafka Broker Topics 中的总 Bytes Fetched》的量是《各 Kafka Broker Topics 中的总 Bytes Received》的2倍。纳尼,测试环境没有这个问题啊。。。。第一次在正式环境使用kafka,顿时紧张不行,仔细检查程序,确认不是自己主动.原创 2020-09-10 14:34:46 · 383 阅读 · 0 评论 -
python技能实践系列(七)-- jupyter notebook 用spark读取本地文件实现简单的wordcount功能
python技能实践系列(七)-- jupyter notebook 用spark读取本地文件实现简单的wordcount功能如果你正在用的是公司某台机器上的jupyter,不知道当前的工作目录,可以用下面的代码查看。展示的是绝对路径。import osos.getcwd()2.用spark读取当前工作目录下的文件。非远程文件,用file://表示读取本地文件from pysp...原创 2019-06-27 10:23:54 · 1196 阅读 · 0 评论 -
HIVE自定义函数之UDF,UDAF和UDTF
UDFhive的udf允许用户使用自定义函数解决hive 自定义函数无法处理的逻辑。输入一行数据输出一行数据。 解决问题描述 想要比较两个逗号分隔的字符串是否相同。 -使用方法 如果ignoreNullFlag是1,则两个字符串都是空算相等,如果不是1,算不等 add jar /home/mart_wzyf/zhuhongmei/plist_udf_udaf.jar; CREATE TE原创 2016-04-29 18:00:28 · 10717 阅读 · 2 评论 -
hive 高级数据类型使用之array(含横表转纵表)
hive 高级数据类型使用用了许久的hive,但是一直都是简单的sql join,sort, order by等,今天有一个业务场景需要使用array数据类型存储数据并进行横表转纵表的转换。mark下以后用了可以查询。 数据样子是这样的。 ID type_flag tags 10001 3 11_20_30,11_22_34,12_23_30,13_24_36 10002原创 2016-04-26 15:08:57 · 17977 阅读 · 0 评论 -
spark+eclipse环境搭建同时使用kmeans聚类
spark+eclipse环境搭建同时使用kmeans聚类spark本地环境搭建 网址:http://spark.apache.org/downloads.html 网址:http://hadoop.apache.org/releases.html 配置SPARK_HOME和HADOOP_HOME,同时环境变量path中加入相应的bin路径启动: cmd命令dos下使用spark-she原创 2016-04-07 17:56:38 · 1318 阅读 · 0 评论 -
Hive使用记录
hive使用技巧-hive新加字段 hive新增字段后,如果是分区表,当前分区已经有数据时一定要先删除分区后再插入数据,否则新加字段的值为NULL。 ALTER TABLE login DROP IF EXISTS PARTITION (dt=’2008-08-08’);原创 2016-01-18 15:18:37 · 428 阅读 · 0 评论 -
windows7下eclipse连接ubuntu中的hadoop开发环境配置
工具下载eclipse-jee-mars-1-win32-x86_64 下载地址:http://www.eclipse.org/downloads/hadoop-2.5.2 下载地址:http://hadoop.apache.org/releases.htmlhadoop-src-2.5.2 下载地址:http://hadoop.apache.org/#Download+Hadooph原创 2015-12-24 18:22:55 · 908 阅读 · 0 评论 -
Ubuntu14搭建Hadoop2.5.2伪分布式开发环境
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2015-12-24 16:29:37 · 762 阅读 · 0 评论