
bigData
文章平均质量分 78
链巨人
这个作者很懒,什么都没留下…
展开
-
教程,使用YCSB测试MYSQL数据库,获取千万条测试后的数据
Yahoo! Cloud Serving Benchmark (YCSB)是一个数据库特别是nosql数据库性能测试的benchmark。在GitHub中有3.9千个star和1.9千个forks。本文讲解如何使用YCSB测试MYSQL数据库的性能。本人最终的结果是获取测试之后保存在MYSQL中的数据,需要10000000条记录。这个过程包含性能测试的步骤。系统:Windows 10; MYSQL5.7安装MYSQL数据库,(测试能够登录进去)。创建库和table。根据这个链接 https://g原创 2021-12-14 16:18:15 · 3558 阅读 · 0 评论 -
Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现
2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。热泪盈眶啊!这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者的幂等操作和kafka的事务性支持。(3)exactly-once的流处理。1. 什么是恰好一次exactly-onceexact...原创 2018-10-03 15:17:27 · 4875 阅读 · 1 评论 -
什么是Kafka Global Table (GlobalKTable)
在kafka中,有三个重要的抽象,分别为KStream,KTable和GlobalKTable。本文主要讲解GlobalTable。Global table存在的理由Kafka根据数据的key来分区,一般情况下相同的key会存入相同的分区中,如果使用两个KTable来进行join操作,那么join的结果需要进一步在硬盘中进行分区操作。而硬盘的不断寻址读写操作会严重影响性能。在流操作应用中,经常...原创 2018-09-26 19:32:27 · 2440 阅读 · 0 评论 -
从安装Kafka服务到运行WordCount程序
之所以写这篇文章,是因为Kafka初学的同学在了解了Kafka的基本原理之后,希望在自己的机器上面运行最简单的wordCount的时候,从开始安装Kafka到找到合适的example源码最后到成功运行,这个过程会花费几个小时甚至一天的时间。主要是现今网上Kafka的博客中偏向原理分析的占大多数,讲解程序实例的比较零零散散,特别是一些博客的实例代码中版本不清。本文希望给读者就如何运行第一个Kafka...原创 2018-09-21 23:21:15 · 543 阅读 · 0 评论 -
Stream Processing:滑动窗口的聚集(aggregation)操作的优化算法讲解
在实时计算的流处理中,因为数据是以流的形式不断流入实时处理,把流数据保留到内存中以待以后再处理不是一个明智的选择,一般情况下是采用窗口window来缓存最近的一部分流数据,针对这部分数据处理得到结果。有多中window,包括tumble window,session window,sliding window。而sliding window算是最常用的,它的属性有window length和sli...原创 2019-01-18 22:54:05 · 2891 阅读 · 0 评论 -
Stream Processing:Apache Flink快照(snapshot)原理
本文将要讲解的是Apache Flink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。本文将同下面几个方面讲解:什么是快照?为什么需要快照?跟其他系统的快照相比,Apache Flink快照的原理有哪些优点?Apache Flink的快照原理是什么?1. 什么是快...原创 2019-01-07 20:29:57 · 3003 阅读 · 0 评论 -
几种数据获取方法
在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义的。在这里给大家推荐一些能够用上数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多思维方式。1 公开的数据库 -转载 2017-08-10 17:38:51 · 10825 阅读 · 0 评论 -
Hadoop生态组件-HIVE学习
安装步骤: 1、安装JDK,配置JAVA_HOME,版本为1.8.0; 2、安装Hadoop(免编译版),版本为2.8.0,配置HADOOP_HOME环境变量。 如果要进行伪分布安装,需要安装ssh已经配置hadoop的配置文件。同时格式化dfs文件系统。 安装参考地址3、安装hive(免编译版pache-hive-1.2.2-bin ),版本为1.2.2,同时配置HIVE_HOME环境变量原创 2017-07-22 23:55:57 · 818 阅读 · 0 评论 -
GPS轨迹数据集免费下载资源整理
本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。如果你发现更好的相关数据资源,欢迎共享 :)1. GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点,每一个点包含经纬度、海拔原创 2017-02-27 23:35:32 · 39122 阅读 · 52 评论 -
Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)
本文使用了两种方法进行spark 的top k词频查询,第S一种方法在很多博客中都介绍到了的,但是这种方法有一个问题,那就是在大数据的情况下效率不高,因为它是通过sparkAPI中的top方法来计算的,这个过程会引起一个耗时的“洗牌“过程;第二种方法在其他博客中基本没有看到,使用的是堆的方式,具体为采用immutable.TreeMap这个自带排序功能的类,但是需要我们稍微修改以下,让它能够根据va原创 2017-02-08 13:40:34 · 3649 阅读 · 0 评论 -
Spark算子汇总和理解(详细)
Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法。通过对这些方法的组合,编程人员就可以写出自己想要的功能。说白了spark编程就是对spark算子的使用。所以熟悉spark算子是spark编程的必修课。这篇文章是本人对于spark算子的汇总和理解。欢迎批评指正 :)groupByKey()描述: Group values with the sa原创 2017-01-12 13:46:50 · 13079 阅读 · 1 评论 -
Spark Learning
Spark Spark SQLSpark StreamingMLib(mechine learing)GraphX(graph)cassandraHBaseMesosHadoopsubmit the spark job.mvn clean && mvn compile && mvn package$SPARK_HOME/bin/spark-submit \ --class c原创 2016-12-30 09:48:11 · 1111 阅读 · 0 评论 -
理解spark闭包
当用户提交了一个用scala语言写的Spark程序,Spark框架会调用哪些组件呢?首先,这个Spark程序就是一个“Application”,程序里面的mian函数就是下图所示的“Driver Program”, 前面已经讲到它的作用,只是,dirver程序的可能运行在客户端,也有可有可能运行在spark集群中,这取决于spark作业提交时参数的选定,比如,yarn-client和yarn-clu原创 2017-02-24 14:27:09 · 6063 阅读 · 7 评论 -
Hermes实时检索分析平台
一、序言 随着TDW的发展,公司在大数据离线分析方面已经具备了行业领先的能力。但是,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率,这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,转载 2017-02-02 10:49:18 · 1848 阅读 · 0 评论 -
Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)
spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程都运行在一台机器或一个虚拟机上面。Spark任务提交的方式为:spark-submit master=l原创 2017-02-23 17:33:09 · 5439 阅读 · 0 评论 -
RDD(Resilient Distributed Datasets 弹性分布式数据集)
RDD是spark计算框架的核心,spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍,最好的资料就是那篇专门介绍RDD的论文了,已经有中文翻译。使用scala编写spark应用,给人的感觉就像是在使用scala编写普通的scala程序,感觉spark编程和scala编程完成融合在一起了– RDD就是scala的一个类。 RDD是一个只读不可修改的数据集,在scala原创 2017-02-24 13:39:18 · 2654 阅读 · 0 评论 -
Spark组件和术语定义
Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准原创 2017-02-24 13:59:10 · 984 阅读 · 0 评论 -
基于Spark的移动用户主要活动地点的挖掘算法实现以及JavaEE技术整合
本算法基于Spark计算引擎,能够从海量的手机基站数据中挖据出用户的主要活动地点,比如工作地点和居住地点。实现好挖掘算法之后,通过JavaEE来整合上面的算法,让用户能够通过简单的Web UI就能够操作使用该算法,同时为用户提供了可视化数据的功能。原创 2017-06-07 10:36:06 · 2337 阅读 · 7 评论 -
Big Data Ecosystem and Components
Apache Spark Components Spark Core Component - special data structure RDD - basic I/O functionalities - jobs and task scheduling and monitoring - memory management - fault recovery - interacting原创 2016-12-30 09:49:52 · 1116 阅读 · 0 评论