
大数据
文章平均质量分 94
大数据
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛AIGC,欢迎关注进一步交流!
展开
-
一句SQL,判断char列的值是否组成回文字符串
Table t has 2 columns: id INT; value CHAR(1); Column id starts from 0, increased by 1 each row Column value is a single character string Table t has at least 1 row String s is a palindrome when:原创 2016-07-02 22:41:32 · 997 阅读 · 0 评论 -
Impala的分布式查询
翻译自《Getting Started with Impala》 分布式查询 分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera Distribution with Hadoop (CDH)的Linux服务器集群。但翻译 2016-06-13 10:06:01 · 1231 阅读 · 0 评论 -
Hive 用户自定义函数 UDF,UDAF
http://blog.youkuaiyun.com/u011239443/article/details/52189986 Hive有UDF:(普通)UDF,用户自定义聚合函数(UDAF)以及用户自定义生表函数(UDTF)。它们所接受的输入和生产的输出的数据行的数量的不同的。UDF UDF操作作用于单个数据行,且产生一个数据行作为输出。例:strip我们这里创造一个strip UDFpackag原创 2016-08-16 11:01:29 · 1402 阅读 · 0 评论 -
BI中事实表和维度表的定义
一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是数据仓库转载 2016-08-19 14:08:47 · 1660 阅读 · 0 评论 -
Parquet与ORC:高性能列式存储格式
http://blog.youkuaiyun.com/yu616568/article/details/51868447 背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、P转载 2017-03-08 21:09:49 · 1809 阅读 · 0 评论 -
spark-shell用非sql API 改写 hql
当我们在spark-shell用scala写程序的时候,如何不嵌入sql来查询Hive呢?这里我们来举个例子:hql先来看下想要执行的sql,这里选用了TPC-DS中的query3: select /*+MAPJOIN(dt, item)*/ dt.d_year ,item.i_brand_id brand_id原创 2016-08-29 11:59:44 · 1149 阅读 · 0 评论 -
Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式
http://blog.youkuaiyun.com/u011239443/article/details/52015680github:https://github.com/apache/incubator-carbondata 参考: 陈亮,华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》 http://www.meetup.c翻译 2016-07-24 19:35:30 · 7100 阅读 · 0 评论 -
Hive 窗口函数、分析函数
http://www.cnblogs.com/skyEva/p/5730531.html Hive 窗口函数、分析函数 1 分析函数:用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num转载 2017-03-08 15:16:59 · 990 阅读 · 0 评论 -
Holodesk VS CarbonData
总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan & 少列结果支持在亚秒级响应主键查找支持大数据上涉及一个query中有许多过滤的interactive OLAP-style query, 并能以秒级响应支持包含全列的单条记录的快速抽取支持 HDFS原创 2016-07-24 20:31:57 · 2682 阅读 · 0 评论 -
数据仓库和OLAP技术概述
http://blog.youkuaiyun.com/u011239443/article/details/52623602 《An Overview of Data Warehousing and OLAP Technology》摘要数据仓库和联机分析处理(OLAP)是决策支持基本要素,已经日益成为数据库行业的重点。许多商业产品和服务现已推出,并且所有主要的数据库管理系统供应商现在已经在这些领域提供产品。决翻译 2016-09-23 13:16:06 · 21124 阅读 · 3 评论 -
Hadoop异常合集(更新中~)
java.io.FileNotFoundException: File file does notError LogException in thread "main" java.io.FileNotFoundException: File file:/root/tpcds/generator/target/lib/dsdgen.jar does not exist at org.apach原创 2016-07-04 20:43:15 · 4576 阅读 · 2 评论 -
一致性Hash算法
http://www.cnblogs.com/rainwang/p/4309102.html 一致性Hash算法 memcached的分布式是什么意思?下面假设memcached服务器有node1~node3三台,应用程序要保存键名为”tokyo”、”kanagawa”、”chiba”、”saitama”、”gunma”的数据。首先向memcached中添加“tokyo”。将“to转载 2017-02-27 15:38:13 · 548 阅读 · 0 评论 -
布隆过滤器
http://www.cnblogs.com/hxsyl/p/4176280.html 海量数据处理利器之布隆过滤器 看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下转载 2017-02-27 16:37:38 · 658 阅读 · 0 评论 -
拜占庭将军问题
了解过比特币和区块链的人,多少都听说过拜占庭将军问题,或听说过比特币(或区块链)的一个重要成就正是解决了拜占庭将军问题。但真正明白这个问题的人并不多,甚至知道这个问题实质的人都很罕见。本文是一篇技术科普,将重点提供了拜占庭将军问题本身对本质及经典算法的解析,并探讨与之相关的一些问题。笔者参考了不少文献,夹杂了大量私货,但并没有提出解决该问题的新算法,这也不是本文的目的。 Part1:拜占庭将军问题是转载 2017-02-27 17:18:57 · 1527 阅读 · 0 评论 -
Kafka初识
问题一 写出增加Kafka的Partition命令bin/kafka-add-partitions.sh --topic test --partition 2 --zookeeper 192.168.197.170:2181,192.168.197.171:2181问题二 列出配置Kafka删除日志的配置参数 参数 说明(解释) log.roll.hours =24*7 这原创 2016-07-24 18:10:47 · 704 阅读 · 0 评论 -
解析大数据基准测试——TPC-H or TPC-DS
http://blog.youkuaiyun.com/dongzhumao86/article/details/45841583随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Ragh转载 2017-03-08 15:31:56 · 2453 阅读 · 0 评论 -
MapReduce Join
Map Side Joinpackage MapJoin;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.net.URI;import java.util.HashMap;import java.util.Map;import org.apache.原创 2016-08-08 13:58:22 · 478 阅读 · 0 评论 -
MapReduce:随机生成100个小数并求最大值
自定义类在编写MapReduce的时候,自带的输入格式有时候满足不了我们的需求,这就需要自己定义InputFormat,InputSplit和RecordReader。FindMaxValueInputSplitpackage FindMaxValue;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExce原创 2016-08-02 20:21:02 · 984 阅读 · 0 评论 -
Hadoop MapReduce 二次排序
package SecondarySort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Set;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration原创 2016-08-05 15:27:37 · 684 阅读 · 0 评论 -
安全知识&kerberos初识
问题一 kinit alice beeline -u “jdbc:hive2://baogang2:10000/default;principal=hive/baogang2@TDH” 请问这个beeline连接到inceptor中之后,当前用户是谁?principal=hive/baogang2@TDH指的又是什么?当前用户是baogang2principal=hive/原创 2016-07-31 18:05:47 · 2406 阅读 · 0 评论 -
yarn初识
用自己的话表述YARN和MR之间的区别和联系YARN是一个资源管理和作业框架,MR是计算框架 但。MR1中,JobTracker作为核心,管理集群中的每一台机器以及所有的job分配,需要很大的资源消耗,并存在单点故障。MR2以YARN作为资源和作业管理系统,把JobTracker所做的工作拆成两部分,一个是资源管理器ResourceManager,负责所有任务的资源管理和分配,一个是任务调度器A原创 2016-07-17 20:55:38 · 836 阅读 · 0 评论 -
HDFS safemode
问题一 HDFS在什么情况下会进入safemode?safemode是怎样一种工作模式?namenode所使用的存放editlog和fsimage的目录满了的时候(分区满,无空间)namenode 启动过程中(仅仅启动过程中),如果数据块汇报数量不够,就会在safemode中(不是副本数哦,为什么?副本数可以不满,因为可以启动了之后再复制满)手动进入(比如维护升级)。处于safemode的原创 2016-07-14 14:17:53 · 879 阅读 · 0 评论 -
Hadoop生态系统命令合集(更新中……)
Hive查看hive表中数据所在路径hive> describe database bak_spark_tpcds_parquet_1000;OKbak_spark_tpcds_parquet_1000 hdfs://holodesk01:8020/user/hive/warehouse/bak_spark_tpcds_parquet_1000.db USER T原创 2016-08-10 10:06:28 · 937 阅读 · 0 评论 -
一篇漫画让你理解 Hadoop HDFS 读写工作原理
一篇漫画让你了解Hadoop HDFS!转载 2016-06-24 11:41:30 · 3633 阅读 · 1 评论 -
Hbase初识
模块 hmaster、hregionserver、zookeeper、hregion、root表、meta表、hfile、hstore、memstore、blockcachehmaster 启动时HRegion的分配,以及负载均衡和修复时HRegion的重新分配。监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)。创建、删除、修改Tab原创 2016-07-16 23:11:07 · 968 阅读 · 0 评论 -
MapReduce Shuffle原理 与 Spark Shuffle原理
MapReduce Shuffle原理 与 Spark Shuffle原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知转载 2016-11-27 17:51:28 · 2293 阅读 · 0 评论 -
Elasticsearch初识
问题一 描述Elasticsearch中讲到的以下基本概念,并说明它们之间的区别和联系: Cluster, Node, Index, Type, Document, Shards, Segments.Cluster集群,是一组相互独立的、通过高速网络互联的计算机(Node),它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高原创 2016-08-07 21:37:19 · 635 阅读 · 0 评论 -
hadoop io 源码阅读
序列化我们先来看下hadoop官网上给的MapReduce统计词频的示例:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache原创 2016-11-09 21:41:25 · 1137 阅读 · 0 评论