
bigdata
文章平均质量分 51
hello_world!
java coder
展开
-
Flink应用场景
Flink 主要应用场景有三类:1.Event-driven Applications【事件驱动】2.Data Analytics Applications【分析】3.Data Pipeline Applications【管道式ETL】Event-driven Applications上图包含两块:Traditional transaction Application(传统事务应用)和Event-driven Applications(事件驱动应用)。Tradition...原创 2022-01-06 17:16:34 · 6065 阅读 · 0 评论 -
造成跨域的原因和解决方法
1.跨域问题的由来何谓同源:URL由协议、域名、端口和路径组成,如果两个URL的协议、域名和端口相同,则表示它们同源。浏览器的同源策略,从一个域上加载的脚本不允许访问另外一个域的文档属性,是浏览器上为安全性考虑实施的非常重要的安全策略。举个例子:比如一个恶意网站的页面通过iframe嵌入了银行的登录页面(二者不同源),如果没有同源限制,恶意网页上的javascript脚本就可以在用户登录银行的时候获取用户名和密码。2.跨域的影响范围在浏览器中,此外父页面js操作不同域的iframe属性时,.原创 2021-06-27 15:21:26 · 938 阅读 · 0 评论 -
Hive学习之路 (五)hive使用beeline配置远程连接
hive以hadoop集群为基础,提供hdfs的SQL支持;hive一般可以以mysql为元数据存储,默认Derby;hadoop,hive安装自行百度吧;介绍hive的远程访问: 未配置之前使用beeline的话,每次都要为连接输入用户名密码,较为麻烦; 实现目标:在非集群节点上敲beeline命令,直接进入到hive的命令行1,在hive服务的安装节点的hive-site.xml配置文件中添加以下配置,配置beeline的远程访问用户名和密码 hive.serv...原创 2021-06-27 15:19:22 · 2811 阅读 · 2 评论 -
将数据从数据仓库Hive导入到MySQL
1.启动Hadoop,hive,mysql2.在mysql中建表(需要导入数据的)mysql> CREATE TABLE `dbtaobao`.`user_log` (`user_id` varchar(20),`item_id` varchar(20),`cat_id` varchar(20),`merchant_id` varchar(20),`brand_id` varchar(20), `month` varchar(6),`day` varchar(6),`action` varc原创 2021-06-27 15:17:19 · 4663 阅读 · 0 评论 -
使用Sqoop将Hive表数据导入到mysql
通过Sqoop将Hive表数据导入到Mysql通常有两种情况。第一种是将hive上某张表的全部数据导入到mysql对应的表中。第二种是将hive上某张表中的部分数据导入到mysql对应的表中。两种方式的区别在于第二种情况需要指定要导入数据的列名称。两种情况的导入方式分别如下:1.全部导入Sqoop export --connectjdbc:mysql://127.0.0.1:3306/dbname--usernamemysql(mysql用户名) --password123...原创 2021-06-27 15:08:41 · 2072 阅读 · 0 评论 -
Hive表创建唯一标识列
需求:在某一张 hive 表中需要有一列去唯一标识某一行,有些类似于MySQL中的自增IDrow_number() SELECT row_number() OVER(ORDER BY RAND()) AS sample_key1结果UUID SELECT regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "") AS sample_key1结果两种方法对比:使用 row_numb原创 2021-06-27 15:06:53 · 540 阅读 · 0 评论 -
Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的存储格式的压缩对比和查询速度对比)
综述:HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。如果为textfile的文件格式,直接load就OK,不需要走MapReduce;如果是其他的类型就需要走MapReduce了,因为其他的类型都涉及到了文件的压缩,这需要借助MapRedu.原创 2021-06-27 15:03:56 · 1130 阅读 · 0 评论 -
hive表新增字段和字段注释修改
hive表新增字段,修改字段的注释(1)创建测试表:use mart_flow_test;create table if not exists mart_flow_test.detail_flow_test(union_idstringcomment '设备唯一标识') comment '测试表'partitioned by (partition_datestringcomment '日志生成日期') stored as or...原创 2021-06-27 14:59:01 · 1984 阅读 · 0 评论 -
如何将mysql数据导入hive中
1.首先在hive中建表(尽量与mysql字段对应)2. 将mysql中的表导出 txt格式3.通过hadoop 上传到HDFS上命令hadoop dfs -put /home/hadoop/dim_station_trans_com_info.txt /user/hive/external/tables/dim/dim_station_trans_com_info前面为 hadoop文件地址 ,后面为HDSF文件地址。4.查看HDFS上是否成功上...原创 2021-06-26 15:55:56 · 7411 阅读 · 5 评论 -
centos安装hadoop
【Hadoop学起来】Hadoop2.9.0的单机模式成功运行!!!https://www.jianshu.com/p/92f94eb5f7d2CentOS7下安装Hadoop2.9.2单机模式https://blog.youkuaiyun.com/bowei026/article/details/95794558原创 2020-05-25 22:29:30 · 200 阅读 · 0 评论 -
Apache Kylin 概述
https://www.cnblogs.com/xiaodf/p/11671095.html1 Kylin是什么今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,这一问题已经变成...原创 2020-02-24 01:10:12 · 630 阅读 · 0 评论 -
大数据之hadoop单机版虚拟机VirtualBox安装教程
https://blog.youkuaiyun.com/qq_36986510/article/details/80024905为深入学习hadoop,需要在个人电脑上安装centos6.7虚拟机。本篇文档介绍的就是关于该虚拟机的安装教程。本人操作系统为:windows 10 专业版 (理论上教程适用于window7及以上系统)需要工具:(1)VirtualBox 以及VirtualBox扩展...原创 2020-01-16 21:38:12 · 753 阅读 · 0 评论 -
20190619-手把手教你安装大数据开发测试环境
https://www.jianshu.com/p/056a3b3ee619下载地址http://isoredirect.centos.org/centos/6/isos/x86_64/安装虚拟化软件http://www.jianshu.com/p/6b589ecd62c2安装Linux操作系统 CentOShttp://www.jianshu.com/p/9a65e26c...原创 2020-01-16 21:36:40 · 385 阅读 · 0 评论 -
Flume(一)
https://www.cnblogs.com/xuziyu/p/11004103.htmlFlume的定义Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具 Logstash、FileBeat是ES栈的日志数据抽取工具,他们和Flume很类似,前者是轻量级、后者是重量级,若项目组使用的...原创 2020-01-16 21:34:41 · 433 阅读 · 0 评论 -
hadoop中Yarn的配置与使用示例
https://mp.weixin.qq.com/s?__biz=MzA3NDc3ODg1MQ==&mid=2653658300&idx=2&sn=eef46f1bb01e1afc8924eb8d5bee29a0&chksm=84a5ad30b3d22426d7148760687cee73047a8a80ec285ae1bb243e15cb2bbc66996f40c...原创 2020-01-15 23:13:11 · 1115 阅读 · 0 评论 -
分布式资源调度框架YARN
https://mp.weixin.qq.com/s?__biz=MzA3NDc3ODg1MQ==&mid=2653658324&idx=1&sn=db853c3c6df90df6309761237c81b151&chksm=84a5ad58b3d2244e62a1f9cd6cf52c87c94d717eb07cf0e05735fadf8a2597595afdabc...原创 2020-01-15 22:54:57 · 309 阅读 · 0 评论 -
Hadoop基础知识总结
https://mp.weixin.qq.com/s?__biz=MzA3NDc3ODg1MQ==&mid=2653658300&idx=1&sn=07c72278ee74671efcc41c50d740bf66&chksm=84a5ad30b3d224266ff011493a8c1326961b1851bec19962b7abf615f26432389496384...原创 2020-01-14 22:05:12 · 2072 阅读 · 0 评论 -
Hive基础学习
https://mp.weixin.qq.com/s?__biz=MzA3NDc3ODg1MQ==&mid=2653658331&idx=1&sn=798d6125c0b8609348dbe8de0329c222&chksm=84a5ad57b3d2244128aaa3088c8ad11053151d3377a5490c3f8e16c371a192abbc2f00...原创 2020-01-14 21:14:23 · 2072 阅读 · 0 评论 -
Elastic Stack入门
https://blog.youkuaiyun.com/a185589690/article/details/100852581Elastic Stack简介如果你没有听说过Elastic Stack,那你一定听说过ELK,实际上ELK是三款软件的简称,分别是ElasticsearchLogstash、Kibana组成,在发展的过程中,又有新成员Beats的加入,所以就形成了Elastic Stack...原创 2019-12-17 21:32:41 · 221 阅读 · 0 评论 -
初识Apache Spark
https://www.jianshu.com/p/59b0601d7ad2第一次接触Spark,自己整理了(从网络,书籍,同事那里)一些Spark的相关内容当做笔记。路过的朋友仅供参考,不能保证说得都对。什么是 Spark简单来说,Spark是一种面向对象、函数式编程语言。Spark能够像操作本地集合对象一样轻松地操作分布式数据集。它具有运行速度快、易用性好、通用性强和随处运行等特点...原创 2019-11-28 16:59:26 · 185 阅读 · 0 评论 -
Spark学习之路 (一)Spark初识
https://www.cnblogs.com/qingyunzong/p/8886338.html目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景正文回到顶部一、官网介绍1、什么是Spark官网地址:http://spark.ap...原创 2019-11-22 20:31:01 · 169 阅读 · 0 评论 -
ElasticSearch 索引查询使用指南——详细版
https://www.cnblogs.com/pilihaotian/p/5830754.html我们通常用用_catAPI检测集群是否健康。 确保9200端口号可用: curl 'localhost:9200/_cat/health?v' 绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用. 2.通过如下语句,...原创 2019-11-20 22:47:29 · 819 阅读 · 0 评论 -
ES快速入门
https://www.jianshu.com/p/7d687c9dba4f链接上一篇文章 :ElasticSearch介绍 https://www.jianshu.com/p/403c9d5b14633 ES快速入门ES作为一个索引及搜索服务,对外提供丰富的REST接口,快速入门部分的实例使用head插件来测试,目的是对ES的使用方法及流程有个初步的认识。3.1 创建索引库E...原创 2019-11-20 22:39:52 · 743 阅读 · 0 评论 -
ElasticSearch介绍
https://www.jianshu.com/p/403c9d5b14631、 ElasticSearch介绍1.1 介绍image.png官方网址:https://www.elastic.co/cn/products/elasticsearchGithub:https://github.com/elastic/elasticsearch总结:1、elasticsear...原创 2019-11-20 22:37:24 · 214 阅读 · 0 评论 -
SLA 99.99%以上!饿了么实时计算平台3年演进历程
http://www.dataguru.cn/article-13319-1.html作者介绍倪增光,饿了么BDI-大数据平台研发高级技术经理,曾先后就职于PPTV、唯品会。15年加入饿了么,组建数据架构team,整体负责离线平台、实时平台、平台工具的开发和运维,先后经历了唯品会、饿了么数据平台从无到有到不断完善的过程。一、背景饿了么BDI-大数据平台研发团队目前共有20人左...原创 2019-11-14 22:29:15 · 1198 阅读 · 0 评论 -
HBase系列(二):HBase架构及读写流程
https://blog.youkuaiyun.com/whdxjbw/article/details/81107285 ...原创 2019-07-19 22:56:10 · 143 阅读 · 0 评论 -
ActiveMQ与Zookeeper高可用集群
https://blog.youkuaiyun.com/xiaoxsen/article/details/79050842 ...原创 2019-07-19 14:58:19 · 248 阅读 · 0 评论 -
日均数十亿请求!京东评价系统海量数据存储高可用设计
https://dbaplus.cn/news-21-613-1.htmlhttps://blog.youkuaiyun.com/weixin_34268169/article/details/87293207 原文链接:http://www.jianshu.com/p/b65ed16...原创 2019-07-15 10:24:28 · 525 阅读 · 0 评论 -
zookeeper面试题
https://segmentfault.com/a/1190000014479433?utm_source=tag-newest1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能...原创 2019-03-17 22:56:33 · 412 阅读 · 0 评论 -
JMS学习(六)-ActiveMQ的高可用性实现
原文地址:http://www.cnblogs.com/hapjin/p/5663024.html一,ActiveMQ高可用性的架构ActiveMQ的高可用性架构是基于Master/Slave 模型的。ActiveMQ总共提供了四种配置方案来配置HA,其中Shared Nothing Master/Slave 在5.8版本之后不再使用了,并在ActiveMQ5.9版本中引入了基于Zo...原创 2019-03-16 20:48:53 · 193 阅读 · 0 评论 -
为何HBase速度很快
https://blog.youkuaiyun.com/keda8997110/article/details/50916800 为何HBase速度很快?HBase能提供实时计算服务主要原因是由其架构和底层的数据结...原创 2019-07-20 17:26:53 · 311 阅读 · 0 评论 -
一篇文章让你了解Hive和HBase的区别
https://blog.youkuaiyun.com/wshyb0314/article/details/81475475 相信做...原创 2019-07-20 17:27:59 · 180 阅读 · 0 评论 -
HBase不睡觉书
https://blog.youkuaiyun.com/brucexia/article/details/79121050 HBase不睡觉书http://product.dangdang.com/25216089....原创 2019-07-17 23:04:29 · 367 阅读 · 0 评论 -
深入理解mongodb和hbase区别
https://blog.youkuaiyun.com/qq_32532853/article/details/52539064 最近公司想要做数据分析,之前我们公司用的是免费的growing IO。他们分析仅限于界面跳...原创 2019-07-17 23:33:39 · 5014 阅读 · 1 评论 -
大白话ElasticSearch是什么以及应用场景
https://blog.youkuaiyun.com/paicMis/article/details/82535018 ...原创 2019-08-04 23:49:05 · 895 阅读 · 0 评论 -
JAVA 大数据方向 - 知识体系概况
https://blog.youkuaiyun.com/qq_40147863/article/details/84349644 ...原创 2019-08-07 21:48:35 · 681 阅读 · 0 评论 -
hadoop、hbase、hive、spark分布式系统架构原理
https://blog.youkuaiyun.com/luanpeng825485697/article/details/80319552 版权声明:本文为博主原创文章,遵循 ...原创 2019-08-19 22:22:50 · 537 阅读 · 0 评论 -
如何正确理解CAP理论
https://www.jdon.com/bigdata/how-to-understand-cap.html在大数据领域,被业界广泛谈及的CAP理论存在着一些关键性的认知误区,而只有全面地考察与分析分布式环境中的各种场景,我们才能真正正确地理解它。 目前,CAP(Consistency一致性、Availability可用性、Partition-tolerance分区可容忍性)理论普遍被...原创 2019-03-07 20:50:49 · 381 阅读 · 0 评论