
大数据技术分享
大数据一系列知识点解析
魂落忘川犹在川
无端坠入红尘梦,惹却三千烦恼丝。
展开
-
linux getopts实现模拟mysql参数登录
getopts脚本设置方式# ":u:p:h:P:" 中开头的:是指区分错误类型# u: 变量后 : 指使用时必须有参数值# OPTARG 是指系统内置变量while getopts ":u:p:h:P:" optdo case $opt in u) user=$OPTARG echo "用户名: ${user}" ;; p) pwk=$OPTARG echo "用户密码: ${pwk} " ;; h) host=$OPTARG原创 2022-05-25 17:04:16 · 299 阅读 · 1 评论 -
hive的limit失效问题
问题语句select app_name,count(1) as cnt from ( select name,seq_id from tmp.data_20220418 group by name ,seq_id) a group by app_name limit 10; 当我在spark去运行这个语句时加不加limit 结果是一致的但是当我用beeline去运行时, 加limit 结果只有一行错误数据, 不加limit 才能跑出正常结果排查过程把limit相关参数原创 2022-04-29 16:42:02 · 2925 阅读 · 0 评论 -
hive自动化上传文件到表
自动化实现上传文件到表#!/bin/bash. /etc/profile. ~/.bash_profile. ~/.bashrcerror() { if [[ $? != 0 ]]; then echo "$@ 运行失败" exit 1 fi}# 待上传表名inset_table_name=$1# 待上传文件名file_name=$2# 分区名pt=$3load_path="/tmp/load_path/"curr原创 2022-03-04 19:29:44 · 1277 阅读 · 0 评论 -
spark-windows本地环境搭建
本机系统windows10Hadoop是hadoop-3.2.0,替换hadoop.dll 和winutils.exe (直接换掉bin目录)github找 https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10 , spark2.4.3不需要本地环境pom配置即可 (注意spark3.0会出现java 9 报错,网上的方法都不可用)环境变量JAVA_HOME、HADOOP..原创 2022-01-11 16:44:11 · 1092 阅读 · 0 评论 -
查看hive库下那些表是视图
多人用同一个数据库,有人表名命名不规范导致视图和表无法分离开来,当想查看那些是表,那些是视图时,遇到了问题。网上有提供show views;命令,但是在当前的hive版本中正本不支持主要问题在于两点grep 做过滤默认为模糊匹配,需要添加 -w 参数使用uniq -u 来过滤会有一部分隐藏文件和其它建的外表(已删除表)也会被输出代码如下#!/bin/bash. /etc/profile. ~/.bash_profile# 报错退出error() { if [[ $?.原创 2021-03-29 16:39:52 · 1101 阅读 · 0 评论 -
python读取mysql结果写入Excel
代码环境 python3#!/usr/bin/env python# -*- coding: utf-8 -*-import pymysqlimport xlwtimport timecurr_date=time.strftime("%Y-%m-%d", time.localtime()) # 结果文件存放位置rest_file_path="C:\\Desktop\\"# 参数 mysql表名,读取字段,要读取字段值,要提取的数据量def export_excel(table_n.原创 2021-02-09 16:13:02 · 361 阅读 · 1 评论 -
scala函数和方法的调用
方法和函数的区分Scala 中使用 val 语句可以定义函数,def 语句定义方法。/** * 同包调用其他类 * def functionName ([参数列表]) : [return type] * */object testFun{ def main(args: Array[String]): Unit = { val a = 4 var n= trueOrFllse(a > 2 ) println(n) // 此处为函数体,并在方法体内调用原创 2021-02-09 16:00:53 · 371 阅读 · 0 评论 -
python 实现TXT转excel 并切割文件
话不多说,上代码本次使用的是python3环境,使用pandas读取文件,读取速度有点慢,建议数据量50W以下优化方案可以使用mysql来操作sql来完成大数据量的操作# -*- coding: utf-8 -*-import pandas as pdimport sys#from bbb import *import timecurr_date=time.strftime("%Y-%m-%d", time.localtime()) #文件名路径path="C:/Users/原创 2021-02-09 15:51:00 · 481 阅读 · 1 评论 -
hive where条件字段丢失问题
问题我们执行屏蔽掉有字符的字段,但是下面这种执行方式会把空的过滤掉-- name 为空的会丢失select * from tmp.name_sex_201201 where name not regexp '本人|[*]' 解决方案select * from tmp.name_sex_201201 where nvl(name,'') not regexp '本人|[*]' ...原创 2021-02-09 15:34:43 · 337 阅读 · 0 评论 -
自动化下载hive表数据(可指定分隔符和屏蔽字段)
一、脚本内容#!/bin/bash. /etc/profile. ~/.bash_profile# 报错退出error() { if [[ $? != 0 ]]; then echo "$@ 运行失败" #事务回滚机制 sh ~/bee_u_e.sh "drop table if exists tmp.nidaye_${pt}" exit 1 fi}#脚本使用说明if [[ $1 = help ]];t原创 2021-02-09 15:20:01 · 347 阅读 · 0 评论 -
Flink单机版安装与测试最易操作教程
本文主要是讲述flink单机版的搭建及测试首先在官网下载需要的版本,网址在下面:这次测试使用的是flink1.6.2,Hadoop2.7.2,scala2.11https://flink.apache.org/downloads.html#all-stable-releases下载完毕将安装包上传到linux,并安装tar -zxvf flink-1.6.2-bin-hadoop2...原创 2018-11-26 19:16:49 · 3235 阅读 · 8 评论 -
Flink集群搭建(傻瓜式操作)
从下载到部署,从部署到测试,且听我娓娓道来!首先在官网下载需要的版本,网址在下面:这次测试使用的是flink1.6.2,Hadoop2.7.2,scala2.11https://flink.apache.org/downloads.html#all-stable-releases下载完毕将安装包上传到linux,并安装tar -zxvf flink-1.6.2-bin-hadoop2...原创 2018-11-26 19:18:14 · 1807 阅读 · 3 评论 -
Flink入门必学,你还不知道?
今天主要围绕Flink是什么?能干什么?为什么要用它这几点来谈谈我的一些看法整体结构:是什么:Flink 是一个框架和分布式处理引擎,是一个用于对无界和有界数据流进行有状态计算的框架Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。能干什么:任何类型的数据都是作为事件流产生的,数据可以作为有界流和无界流处理有界流:只要开始便不会结束,处理是通常要求以特...原创 2018-11-24 21:36:12 · 696 阅读 · 0 评论