
spark
文章平均质量分 85
leofionn
梦想还是要有的。万一呢?
展开
-
Hive数据仓库之解析Json格式文件
转载自Lamborryan,作者:Ruan Chengfeng 本文链接地址:http://www.lamborryan.com/hive-json1.简介公司的日志都是以json格式保存的且存放在HDFS上的,有时候需要直接通过查询Hive就能得到日志里面的具体信息。要实现以上的目的,HIVE提供了三种方法,分别是:UDF get_json_object(string json_string,s...转载 2018-05-09 09:49:21 · 751 阅读 · 0 评论 -
Kryo序列化与Java序列化
1.序列化在Spark中的用处在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输将自定义的类型作为RDD的泛型类型时(比如JavaRDD,Student是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现Serializable接口。使用可序列化的持久化策略时(比如MEMORY_ONLY_SER),Spark会将RDD中的每个partition都序...原创 2018-06-01 17:17:15 · 6925 阅读 · 0 评论 -
海量数据处理:十道面试题与十个海量数据处理方法总结(大数据算法面试题)
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相...转载 2018-06-09 17:11:57 · 380 阅读 · 0 评论 -
spark对接Hbase
0.我们有这样一个表,表名为Student1.在Hbase中创建一个表表明为student,列族为info2.插入数据我们这里采用put来插入数据格式如下 put ‘表命’,‘行键’,‘列族:列’,‘值’ 我们知道Hbase 四个键确定一个值,一般查询的时候我们需要提供 表名、行键、列族:列名、时间戳才会有一个确定的值。但是这里插入的时候,时间...转载 2018-07-02 23:12:53 · 2694 阅读 · 0 评论 -
hbase存取图片
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase...原创 2018-07-02 23:37:31 · 568 阅读 · 0 评论 -
Spark中repartition和coalesce的用法
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)1)、N<M。一般情况下N个...原创 2018-07-31 17:42:45 · 348 阅读 · 0 评论 -
spark 2.X 疑难问题汇总
https://blog.youkuaiyun.com/xwc35047/article/details/53933265当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致...转载 2018-08-27 17:42:29 · 1236 阅读 · 1 评论 -
pyspark系列--pandas和pyspark对比
目录pandas和pyspark对比1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计1.18. ...转载 2018-09-22 21:41:25 · 3028 阅读 · 0 评论 -
Spark性能优化
https://blog.youkuaiyun.com/u012102306/article/details/51637366https://tech.meituan.com/tag/Spark(非常重要!!!!!!!!基本看此三篇就可以解决)ps具体的问题,若泽数据的线下都有讲解。包括源码级别的内存调优调研。(spark1.6之前之后对比!)...原创 2018-10-29 13:56:37 · 166 阅读 · 0 评论 -
使用Apache Spark设置Tableau的指南
https://community.tableau.com/docs/DOC-7638Apache Spark是大数据分析中最热门的事情,而Tableau是最热门的数据可视化和发现工具之一。将它们组合在一起,您就可以在大数据分析和可视化领域获得潜在的游戏规则改变。 Tableau 9支持与Spark一起使用,但设置并非完全直截了当,直到您正确设置后端组件设置。 技术堆栈 ...翻译 2019-02-11 21:40:26 · 915 阅读 · 0 评论 -
spark的coalesce和repartition算子管理分区
源码地址https://github.com/apache/spark/blob/v2.4.0/core/src/main/scala/org/apache/spark/rdd/RDD.scalarepartition: / ** *返回一个具有正确numPartitions分区的新RDD。 * *可以增加或减少此RDD中的并行度。在内部,这使用 *重新分配数据的随机...原创 2019-02-20 21:13:21 · 752 阅读 · 0 评论 -
Spark运行脚本 start-all.sh(standalone)
#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional informat...原创 2019-03-02 17:41:35 · 1489 阅读 · 0 评论 -
spark源码导入IDEA
1.官网下载源码包或者github下载源码版本2.下载的tar包解压后,用open的方式导入IDEA3.利用maven安装必要依赖参考:https://www.cnblogs.com/juncaoit/p/6368371.html...原创 2019-02-26 21:16:54 · 378 阅读 · 0 评论 -
UpdateStateByKey操作
官网原话:updateStateByKey操作允许您在使用新信息不断更新时保持任意状态。要使用它,您必须执行两个步骤。定义状态 - 状态可以是任意数据类型。 定义状态更新功能 - 使用函数指定如何使用先前状态和输入流中的新值更新状态。在每个批处理中,Spark都会对所有现有key应用状态更新功能,无论它们是否在批处理中都有新数据。如果更新函数返回,None则将删除key-valu。...原创 2019-03-17 11:02:52 · 1872 阅读 · 1 评论 -
大数据文本相似去重方案
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本...原创 2018-06-01 17:01:34 · 4362 阅读 · 0 评论 -
美团点评技术团队:Spark性能优化指南——基础篇读后感
1.原文链接 https://tech.meituan.com/spark-tuning-basic.html 2.介绍: 在看过美团点评的文章后,我觉得对Spark的调优写的十分棒,我决定综合自己对其的理解写一篇针对这篇文章的代码调优方面的读后感。以加深对其的理解。调优分为基础篇和高级篇,我先对比较倾向于代码的基础篇进行讲解。3.正文原则一:避免重复的RDDRDD的根本就是一个数据集,我们需要从...原创 2018-05-28 22:08:36 · 1086 阅读 · 0 评论 -
spark SQL读取MySQL中的dept和hive中的emp表,做join和分组查询,然后写到json文件
val jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://hadoop000:3306").option("dbtable", "hive.dept").option("user", "root").option("password", "123456")原创 2018-05-26 21:28:43 · 340 阅读 · 0 评论 -
Hadoop、MapReduce、YARN和Spark的区别与联系
(1) Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。(2) Hadoop 2.0第二代Hadoop,为克服Hadoop 1....转载 2018-05-11 08:27:16 · 2934 阅读 · 0 评论 -
kafka+sparkstreaming实时读取计算nginx日志,存储结果到mongodb/mysql
#!/usr/bin/env python#coding:utf-8import sysimport urlparseimport reimport datetimeimport MySQLdbimport loggingfrom pymongo import MongoClientfrom pyspark import SparkContext, SparkConffrom...转载 2018-05-04 17:21:28 · 1199 阅读 · 0 评论 -
使用Flume+Kafka+SparkStreaming进行实时日志分析
使用Flume+Kafka+SparkStreaming进行实时日志分析每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写...转载 2018-05-04 17:23:39 · 1274 阅读 · 0 评论 -
Spark Streaming+Kafka(踩坑)
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spa...转载 2018-05-06 09:47:27 · 1201 阅读 · 0 评论 -
Spark使用mysql做metastore
方法一:cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf/./spark-shell --master local[2] --jars /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar 方法二:cp /usr/local/hive/lib/mysql-connecto...原创 2018-03-12 20:57:47 · 599 阅读 · 0 评论 -
编译安装spark2.2.0
环境:centos6.8软件准备:spark-2.2.0.tgz源码 jdk-8u144-linux-x64.tar.gz JDK1.8以上 apache-maven-3.3.9-bin.tar.gz scala-2.11.8.tgz hadoop...原创 2018-03-06 12:42:54 · 518 阅读 · 0 评论 -
Spark RDD详解
转载http://blog.youkuaiyun.com/wangxiaotongfan/article/details/513957691、RDD是什么RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD的描述Internally, each RDD is ...转载 2018-03-05 13:51:09 · 205 阅读 · 0 评论 -
Spark分布式计算和RDD模型研究
转载地址:http://blog.youkuaiyun.com/wwwxxdddx/article/details/456477611背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed D...转载 2018-03-05 13:53:10 · 203 阅读 · 0 评论 -
Scala函数
scala中函数编写的方式如下:1.规范化写法,scala 函数的返回值是最后一行代码;def addInt(a:Int,b:Int) : Int = {var total : Int = a + breturn total}//Unit,是Scala语言中数据类型的一种,表示无值,用作不返回任何结果的方法;def returnUnit(): Unit = {println("ZST loves ...原创 2018-03-05 14:23:16 · 167 阅读 · 0 评论 -
scala复习(面试题)
1.Scala怎样声明变量与常量?var val2.Scala数据类型有哪些?数据类型描述Byte8位有符号补码整数。数值区间为 -128 到 127Short16位有符号补码整数。数值区间为 -32768 到 32767Int32位有符号补码整数。数值区间为 -2147483648 到 2147483647Long64位有符号补码整数。数值区间为 -9223372036854775808 到 9...原创 2018-03-06 17:40:29 · 12678 阅读 · 1 评论 -
Spark Streaming如何使用checkpoint容错
在互联网场景下,经常会有各种实时的数据处理,这种处理方式也就是流式计算,延迟通常也在毫秒级或者秒级,比较有代表性的几个开源框架,分别是Storm,Spark Streaming和Filnk。 曾经在一个项目里面用过阿里改造后的JStrom,整体感受就是编程略复杂,在不使用Trident Api的时候是不能保证准确一次的数据处理的,但是能保证不丢数据,但是不保证数据重复,我们在使用期间也出现过几次问...转载 2018-05-14 17:02:26 · 202 阅读 · 0 评论 -
Kafka副本同步机制理解
Apache Kafka的流行归功于它设计和操作简单、存储系统高效、充分利用磁盘顺序读写等特性、非常适合在线日志收集等高吞吐场景。Apache Kafka特性之一是它的复制协议。对于单个集群中每个Broker不同工作负载情况下,如何自动调优Kafka副本的工作方式是比较有挑战的。它的挑战之一是要知道如何避免follower进入和退出同步副本列表(即ISR)。从用户的角度来看,如果生产者发送一大批海...转载 2018-05-14 20:43:25 · 2456 阅读 · 0 评论 -
线程安全的AtomicLong使用
看一个计数的类:[java] view plain copy [java] view plain copypublic class Counter { private static long counter = 0; public static long addOne(){ return ++counter; } } 初看感觉没啥问题,但这个类...转载 2018-05-21 18:10:13 · 548 阅读 · 0 评论 -
kafka中的配额管理(限速)机制
kafka支持配额管理,从而可以对Producer和Consumer的produce&fetch操作进行流量限制,防止个别业务压爆服务器。本文主要介绍如何使用kafka的配额管理功能。1 Kafka Quatas简介Kafka配额管理所能配置的对象(或者说粒度)有3种:user + clientiduserclientid这3种都是对接入的client的身份进行的认定方式。其中,clien...转载 2018-05-22 13:00:23 · 4059 阅读 · 2 评论 -
sparkstreaming实时读取kakfa到mysql小demo(直读)
步骤:安装部署单机kafka 创建mysql表 sparkstreaming实时消费一.安装kafka注:出于方便以及机器问题,使用单机部署,并不需要另外安装zookeeper,使用kafka自带的zookeeper1.下载https://kafka.apache.org/downloads (使用版本:kafka_2.11-0.10.0.1.tgz)2.编辑server.p...原创 2019-03-17 11:56:19 · 935 阅读 · 0 评论