
spark
文章平均质量分 53
humanity11
这个作者很懒,什么都没留下…
展开
-
spark 主要作者之一毕业论文(大型集群上的快速和通用数据处理架构)
spark论文原创 2022-04-16 22:40:52 · 2454 阅读 · 0 评论 -
sparkSql中的那些函数
对于sparksql的应用企业基本只要属于大数据相关的互联网公司都会安装和使用spark,而sparksql对于对于那些不熟悉sparkapi的人更是一件利器,这对于熟悉mysql的人如虎添翼,好了,废话不多说,我们看下sparksql中的那些很少被用到却非常有用的函数。lit:Creates a [[Column]] of literal value.创建一个字面 值得列;eg:df.se...原创 2020-02-19 22:34:44 · 653 阅读 · 0 评论 -
hbase 错误调用表读方法引发的血案
记一次错误调用hbase读方法引发的血案需求说明目前公司的数据库存在上前亿级别的GPS坐标点,数据量在几十至百TB级别,这些坐标需要获取从百度、高德等网站上更新获取该点对应的服务信息,即一个坐标点对应一条该坐标的描述信息。如果将这些坐标全部按一个点一个 点 的查询下载,按照目前我们的查询Http接口带宽限制,至少需要1年多。通过抽样调研后发现,这些坐标里存在有大量的重复数据,重复率接近80...原创 2019-12-10 01:03:51 · 3209 阅读 · 1 评论 -
ElasticSearch的分布式安装
介绍:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。安装过程:先去官网上下载最新的版本version:5.6.1,如图原创 2017-09-24 13:06:07 · 671 阅读 · 0 评论 -
Random Forests预测森林植被类型
在Colorado北部,有一片森林,森林里中有多种类型的植被,有人已经将其大概总结出来了7种:1 - Spruce/Fir2 - Lodgepole Pine3 - Ponderosa Pine4 - Cottonwood/Willow5 - Aspen6 - Douglas-fir7 - Krummholz如果将它们的特征划,可以划分成12种,在这12中类型中,其原创 2017-10-07 15:39:57 · 1828 阅读 · 0 评论 -
sparkOnHbase 解决spark读取hbase数据后不能分布式操作
问题描述:在hbase数据库中保存了许多的图像帧数据,其中图像一行帧数据用在数据表中对应一个rowkey,需要用这许多的rowkey合成一个图像,发现很慢,和单机上合成图像有的一比;影响:因为图像需要实时合成,合成数据的快慢直接影响了用户的体验;之前的解决思路:在hbase中的rowkey对应的一行图像帧数据很多,需要先对其进行处理,比如去掉图像行帧数据中的格式、校验图像行等无关信息的去除原创 2017-09-21 23:17:16 · 4728 阅读 · 3 评论 -
Spark submit 启动流程解析
用户通过将spark程序打成jar包提交给spark集群,其中的入口是spark-summit,比如spark官方文档中运行WordCount程序:spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ --executor-memory 2G \ --...原创 2019-05-04 12:45:29 · 922 阅读 · 0 评论 -
spark 运行模式解析
上篇文章讲解了spark submit的提交至spark 集群,但是spark 程序如何在集群中运行并未讲解,这篇文章将围绕spark运行在集群下不同模式讲解,并说明他们的区别是什么?通常我们spark 提交任务时都会使用如下命令:spark-submit --deploy-mode DEPLOY_MODE其中DEPLOY_MODE就是我们想要将程序运行在什么模式下。在上篇文章中我们...原创 2019-05-04 15:55:38 · 168 阅读 · 0 评论