
大数据
seaReal1
这个作者很懒,什么都没留下…
展开
-
kafka
https://blog.youkuaiyun.com/panchang199266/article/details/82113453消费者组:https://www.jianshu.com/p/e9d29ce1a463https://www.cnblogs.com/iamsach/p/9234624.html原创 2019-11-18 08:51:27 · 1777 阅读 · 0 评论 -
tidb在今日头条的实践
本文整理自今日头条数据库中间件/分布式数据库负责人吴镝(知乎 ID:吴镝)在TiDB DevCon2018 上的分享内容。TiDB 主要应用在今日头条核心 OLTP 系统 - 对象存储系统中,存储其中一部分元数据,支持头条图片和视频相关业务,比如抖音等。如今(数据截至发文),TiDB 支撑着今日头条 OLTP 系统里数据流量最大、QPS 最高的场景:集群容量约几十 T,日常 QPS 峰值会达到几十...原创 2018-05-29 10:03:25 · 2164 阅读 · 0 评论 -
转载:HBase
HBase实际上是按照谷歌的bigtable实现的,而谷歌在bigtable论文的开篇就介绍了bigtable的特点:A Bigtable is a sparse, distributed, persistent multidimensional sorted map。所以HBase在本质上,是一张有序的多维map,数据模型可以抽象成:作者:EchoZhan链接:https://www.jians...转载 2018-05-16 10:58:47 · 209 阅读 · 0 评论 -
转载:HBase核心知识点总结
一、HBase介绍1、基本概念HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。2、HBase使用场景和成功案例互联...转载 2018-05-16 09:53:33 · 391 阅读 · 0 评论 -
转载:Hadoop、Hbase基本命令及调优方式
https://www.cnblogs.com/10158wsj/p/8428321.htmlHadoop、Hbase基本命令及调优方式HDFS基本命令接触大数据挺长时间了,项目刚刚上完线,趁着空闲时间整理下大数据hadoop、Hbase等常用命令以及各自的优化方式,当做是一个学习笔记吧。HDFS命令基本格式:Hadoop fs -cmd < args >ls 命令hadoop f...转载 2018-05-16 09:00:32 · 318 阅读 · 0 评论 -
spark的join操作
https://www.cnblogs.com/kangoroo/p/7778962.html转载 2018-05-15 17:51:16 · 475 阅读 · 0 评论 -
spark 基站时长统计
综合练习:通过基站信息计算家庭地址和工作地址需求:根据手机信号来计算其所在的位置手机一开机,就会和附近的基站建立连接,建立连接和断开连接都会被记录到服务器上的日志,所以即使没手机有开启网络或者GPS,也可以定位手机所在的位置。基站都有一定的辐射范围,并且根据信号强度有不同的信号级别,比如2G、3G和4G信号。我们虽然不知道手机用户所在的具体位置,但是我们知道基站的位置,手机用户一旦进入基站的辐射范...原创 2018-05-15 17:41:00 · 1264 阅读 · 0 评论 -
spark udaf的使用
/** * 按照模板实现UDAF */class MyUDAF extends UserDefinedAggregateFunction { /** * 该方法指定具体输入数据的类型 * @return */ override def inputSchema: StructType = StructType(Array(StructField("input", Stri...原创 2018-05-15 16:48:13 · 418 阅读 · 0 评论 -
spark 开窗函数 topN
package com.spark.sparksql.save;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveContext;/...原创 2018-05-15 16:35:43 · 816 阅读 · 0 评论 -
hbase环境搭建的入门教程。
http://hbase.apache.org/book.html#quickstarthttps://www.jianshu.com/p/27c385800da8https://segmentfault.com/a/1190000011277511 好像更好一些转载 2018-05-18 14:08:52 · 299 阅读 · 0 评论 -
spark广播的好处的实例
原创 2018-05-17 18:06:13 · 816 阅读 · 0 评论 -
yarn的特征
与mapReduce1相比,yarn可以在更大规模的集群上运行,当节点达到4000,任务数达到40000时,mapDeduce1会遇到可扩展瓶颈,瓶颈在于jobtracker必须同时管理作业和任务这样一个事实,yarn利用其资源管理器和application master分类的架构优点客服了这个局限性,可以扩展到面向将近10000个节点和10万个任务。...原创 2018-05-17 15:06:03 · 1855 阅读 · 0 评论 -
hdfs文件创建查看
看文件信息hadoop fsck /user/filename更详细的hadoop fsck /user/filename -files -blocks -locations -racks -files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,-rack...转载 2018-05-17 13:34:31 · 7919 阅读 · 0 评论 -
集群维护
例行停止机器1. 例行卸载HDFS Datanode,可以先添加配置dfs.hosts.exclude, 然后主动更新节点。vim $HADOOP_HOME/conf/excludeshadoop dfsadmin -refreshNodes2. 例行卸载HBase的Region Server,可以采用graceful_stop命令./bin/graceful_stop.sh hostname参...转载 2018-05-17 09:35:34 · 490 阅读 · 1 评论 -
scala 将函数映射到集合
object PutFunctionToCollection { def main(args:Array[String]): Unit ={ val name = List("Peter","Paul","Mary") name.map(_.toUpperCase) def ulcase(s:String) = Vector(s.toUpper原创 2018-04-26 09:10:23 · 334 阅读 · 0 评论 -
spark 几个端口
4040:每个Driver的SparkContext都会启动一个web节目,默认端口是404018080: 启动历史服务器: ./sbin/start-history-server.sh , 日志跟目录必须在spark.history.fs.logDirectory中配置,每个子目录对应一个Spark程序的事件日志。历史服务会启动web节目,默认端口 18080...原创 2018-04-25 17:43:20 · 7837 阅读 · 0 评论 -
spark比hadoop快的原因
(1)spark大量使用内存(2)核心数据结构:RDD(弹性分布式数据集),在此基础上提供了许多计算函数,(3)在原先hadoop下一个map或reduce实现的功能,在spark下可以拆分成多个job.如果把hadoop看做罐子里的大石头,那么spark的job就是罐子里的碎石子,可以装的更多。()原创 2018-04-25 16:59:21 · 1619 阅读 · 0 评论 -
hive导入导出数据的几种方式
一,Hive数据导入的几种方式首先列出讲述下面几种导入方式的数据和hive表。Hive表:创建testA:[java] view plain copyCREATE TABLE testA ( id INT, name string, area string )转载 2018-05-09 16:14:53 · 272 阅读 · 0 评论 -
使用了hive为什么要加mysql?
metastore是hive元数据的集中存放地metastore默认使用内嵌的derby数据库作为存储引擎Derby引擎的缺点:一次只能打开一个会话使用Mysql作为外置存储引擎,多用户同时访问Hive安装内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接本地独立模式:在本地安装Mysql,把元数据放到Mysql内远程模式:元数据放置在远程的Mysql数据库。 想说的是,hive只是个...原创 2018-04-25 09:01:28 · 12241 阅读 · 0 评论