
大数据
数据搬运工小青
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
有赞数据仓库实践之路
转载自:有赞数据仓库实践之路一、大数据环境下的有赞数仓关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能 Business Intelligence 的核心部分。在数据仓库诞生之初,它只被设计成面向管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当 Hadoop 生态已然成为大数据现实意义上的载体,以 Hive 为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足某些业务上对数据的统计需求。因此,当下的数据仓库转载 2020-08-07 11:14:46 · 699 阅读 · 0 评论 -
通过odps-sdk读取odps中的表结构,转换为mssqlDDL语句
1. IDEA中新建模块2. 编写ReadDDL类,用于连接ODPS,读取对应的表结构package com.op.ddlutil;import com.aliyun.odps.*;import com.aliyun.odps.account.Account;import com.aliyun.odps.account.AliyunAccount;import com.aliyun.odps.simpleframework.xml.Element;import java.util.Ar原创 2020-08-06 18:03:57 · 2345 阅读 · 0 评论 -
Intellij IDEA实现Maxcompute UDF自定义函数以周日为一周第一天的周数
创建项目new project选择MaxCompute Studio工程写入项目名新建模块new Model选择"MaxCompute Java"类型模块,右侧我什么都没选哦~写入模块名点击"Finish"自动生成pom文件右键模块下的"java"文件夹,new一个"MaxCompute java"创建java文件编写UDF逻辑代码。这里通过传入日期参数,返回一年中的第几周。类似MaxCompute中的weekofyear()函数, weekofyear()是从周一开始.原创 2020-07-09 16:58:58 · 988 阅读 · 0 评论 -
IDEA安装MaxCompute Studio的详细步骤
1.安装好IDEA2.点击File >> Settings >> Plugins,在搜索框搜索MaxCompute,找到对应的插件。3.点击File >> New >> Project,创建新工程,选择MaxCompute Studio。4.点击左上角的“+”加号,添加阿里云上的数据工程。记得提前准备MaxCompute客户端的配置文件!5.成功加载阿里云上的数仓,并可显示相关的表记录!6.新建MaxCompute SQL脚本7.编写原创 2020-05-18 13:11:13 · 2805 阅读 · 0 评论 -
wordcount经典题:使用Hive完成单词统计
准备数据在hive创建数据库、表、导入数据create database interview; #创建数据库use interview; #使用数据库create table wordcount(line string); #创建单词统计表(这里表中一行的数据是文档中的一行的字符串)load data local inpath '/home/data/wor...原创 2020-04-21 10:24:21 · 605 阅读 · 0 评论 -
Spark集群安装(Standalone)
解压安装包tar -xvf spark-2.0.1-bin-hadoop2.7.tgz在spark的conf目录下,复制 spark-env.sh.template 为 spark-env.shcp spark-env.sh.template spark-env.shvim spark-env.sh在spark的conf目录下,复制 slaves.template 为 s...原创 2020-04-19 13:37:02 · 193 阅读 · 0 评论 -
Kafka的安装
解压安装tar -xvf kafka_2.11-1.0.0.tgz编辑 kafka_2.11-1.0.0/config/server.propertiesvim server.properties启动kafka(在kafka的bin目录下启动)sh kafka-server-start.sh ../config/server.properties...原创 2020-04-19 12:58:59 · 137 阅读 · 0 评论 -
HBase的安装
下载解压HBase安装包cd /home/software/tar -xvf hbase-1.3.1-bin.tar.gz编辑 /hbase-1.3.1/conf/hbase-env.sh# 编辑cd hbase-1.3.1/confvim hbase-env.sh# 保存退出,使其生效:wqsource hbase-env.sh添加:export JAVA_H...原创 2020-04-19 12:45:38 · 183 阅读 · 0 评论 -
Hadoop完全分布式的搭建
因为第一台云主机之前搭过伪分布式,所以需要将伪分布式重命名 cd /home/software/ mv hadoop-2.7.1/ hadoop-alone三台云主机关闭防火墙service iptables stopchkconfig iptables off2. 修改三台云主机的主机名,修改HOSTNAME属性,依次改为hadoop01、hadoop02、hadoo...原创 2020-04-19 11:39:32 · 305 阅读 · 0 评论 -
Zookeeper的完全分布式搭建
重新解压Zookeeper的安装包tar -xvf zookeeper-3.4.8.tar.gz进入Zookeeper的安装目录的conf目录下cd zookeeper-3.4.8/conf复制 cp zoo_sample.cfg zoo.cfg;编辑 vim zoo.cfg ,更改dataDir路径,添加三个节点IP在Zookeeper的安装目录下,创建tmp目录 mkdir t...原创 2020-04-18 22:37:26 · 147 阅读 · 0 评论 -
解决:Error in library(lubridate) : 不存在叫‘lubridate’这个名字的程辑包
原创 2020-04-17 19:55:24 · 6572 阅读 · 0 评论 -
思考题:存储了100亿个非法网页的url地址。每个URL地址的大小占用64B。要求实现一个网页过滤系统,内存使用不能超过30GB,此外,允许有一定的误判率,但是不能超过万分之一
思考题:存储了100亿个非法网页的url地址。每个URL地址的大小占用64B。要求实现一个网页过滤系统,内存使用不能超过30GB,此外,允许有一定的误判率,但是不能超过万分之一...转载 2020-04-15 17:34:34 · 976 阅读 · 0 评论 -
Scala统计单词出现的频次
用Scala统计单词出现的频次,其中到的方法有:map, flatMap, split, groupBy, mapValues, reduce, sum, foldLeft…使用Scala WorkSheet,是一次很好的综合练习。/*练习:统计出list中单词出现的频次*/val list = List("hello world","hello guangzhou","hello she...原创 2020-03-31 19:12:20 · 1665 阅读 · 0 评论 -
HBase架构及存储图
随便画画,若有理解不对的地方,请大佬指出~~原创 2020-03-24 21:01:38 · 234 阅读 · 0 评论 -
Hive中UDF自定义函数
使用Java开发Hive的自定义函数。需求:函数repeatstring(str,num) - 字符串str重复数字num次。创建maven工程,并导入依赖创建Reapeat类,继承UDF类,实现的方法必须叫evaluat–Hive才能认识哦~打包成jar包,上传至服务器删除jar包内容,不删会影响程序执行哦~zip -d H_Hive.jar 'META-INF/.SF' ...原创 2020-03-21 12:16:30 · 287 阅读 · 0 评论