纯欲天花板_-优快云博客

原创 MySQL查询json数组是否包含多个指定字符串

案例数据：（只放了一条数据）[{“categoryId”: 130, “categoryName”: “API工艺研究”}, {“categoryId”: 136, “categoryName”: “化合物委托生产”}, {“categoryId”: 139, “categoryName”: “制剂工艺研究”}, {“categoryId”: 144, “categoryName”: “制剂委托生产”}, {“categoryId”: 147, “categoryName”: “药理药效毒理研究”}]这

2022-04-29 14:44:03 4149

原创 PostgreSQL数据库相关函数运用

PostgreSQL数据库相关函数运用regexp_split_to_array 函数regexp_split_to_table 函数array_length 函数regexp_split_to_array 函数字符串分隔函数，可通过指定的表达式进行分隔，将字符串转换成数组。搜索条件为多选，如选择a,c# regexp_split_to_array(字段名,分隔符)select regexp_split_to_array('a,b,c',',');regexp_split_to_table 函

2022-04-19 14:56:32 1289

原创 hive增加表头、数据库名显示配置

修改 hive-site.xml 配置<property> <name>hive.cli.print.header</name> <value>true</value> <description>是否打印表头，默认值为false，即不打印</description></property><property> <name>hive.cli.print.c

2022-02-11 19:29:07 665

原创 kafka的安装配置与使用

一、kafka安装与配置1、上传压缩包到任意节点2、解压，配置环境变量所有节点都配置3、修改配置文件vim /usr/local/soft/kafka_2.11-1.0.0/config/server.properties1、broker.id=0，每一个节点broker.id 要不一样2、zookeeper.connect=master:2181,node1:2181,node2:21813、log.dirs=/usr/local/soft/kafka_2.11-1.0.0/data

2022-01-21 21:36:21 395

原创 Flink集群搭建及运行模式

local 本地测试idea运行flink集群测试1、standallone cluster1、准备工作配置JAVA_HOME免密钥2、上传解压 tar -xvf flink-1.11.0-bin-scala_2.11.tgz 配置环境变量 vim /etc/profile3、修改配置文件(如果是伪分布式，就不需要修改配置文件)vim conf/flink-conf.yamljobmanager.rpc.address: master 主节点ip地址vim

2022-01-19 10:04:49 598

原创 Flink常用算子

文章目录DataStream常用算子1、Map2、FlatMap3、Filter4、KeyBy5、Reduce6、Aggregations7、Window8、WindowAll9、Union10、Window Join11、Split12、SelectDataStream常用算子在 Flink 应用程序中，无论你的应用程序是批程序，还是流程序，都是上图这种模型，有数据源（source），有数据下游（sink），我们写的应用程序多是对数据源过来的数据做一系列操作，总结如下。Source: 数据源，

2022-01-17 22:37:42 2398

原创大数据之离线数仓项目搭建（一）

数据仓库搭建文章目录数据仓库搭建1、开启hadoop的权限验证2、在hive中创建数据库3、在hdfs中创建5个目录4、在linux中创建5个用户5、将目录权限赋值给不同用户6、修改hive权限7、在ods中创建表8、将四个表的数据上传到hdfs9、增加分区10、为每一个用户在hdfs中创建一个目录11、DWD层-位置融合表12、DWS层-停留表13、维表接入1、将维表数据导入到mysql -- init_tour.sql2、在hive中创建表3、使用datax将数据集成到hdfs1、开启hadoop

2022-01-10 23:44:01 2493

原创 Saprk总结

Saprk总结-大数据方向前言为什么要学习Spark？1. Spark比MapReduce快spark可以将数据缓存在内存中进行计算 (cache)spark是粗粒度资源调度，MR是细粒度资源调度DAG有向无环图 (spark两个shuffle中间结果不需要落地，MR需要数据落地)2. Spark简单1. Spark corespark比MR快的三个原因RDD五大特性：RDD由一组分区组成，默认一个block对应一个分区算子实际上是作用在每一个分区上的，每一个分区都会由一个

2022-01-09 22:58:44 637

原创 Spark调优

文章目录1. Spark调优之性能调优2. Spark调优之参数调优数据倾斜1. Spark调优之性能调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化默认情况下，性能最高的是 MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。第二种常用 MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中，此时每个partition仅仅是一个字节数组而已，大大减少了对象数量，并降低了内存占用。尽量避

2022-01-08 21:00:46 963

原创 SparkStreaming

在大数据的各种框架中，hadoop无疑是大数据的主流，但是随着时代发展，hadoop只适用于离线数据的处理，无法应对一些实时数据的处理分析，我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架，比如Storm，Spark Streaming，Samaz等框架，本文主要讲解Spark Streaming的工作原理以及如何使用。1. SparkStreamingSparkStreaming是微批处理，每隔一段时间处理一次，每隔一段时间将接收到的数据封装成一个rdd, 再触发一个job处理r.

2022-01-07 20:39:06 1504

原创 SparkSQL JDBC连接

SparkSQL JDBC连接文章目录SparkSQL JDBC连接1、开启hive元数据服务1、开启hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &2、开启spark jdbc 服务cd /usr/local/soft/spark-2.4.5/sbin/./start-thriftserver.sh --master yarn-client3、在命令行中访问cd /usr/l

2022-01-06 20:07:27 3517

原创 Spark SQL整合Hive

文章目录1. Spark SQL整合Hive2. SparkSQL与Hive共用元数据2.1 开启Hive元数据服务2.1.1 修改hive配置2.1.2 启动hive元数据服务2.2 拷贝hive-site.xml和mysql驱动2.3 启动SparkSQL2.4 测试1. Spark SQL整合Hive为什么要进行整合？由于hive原生是基于MapReduce的，导致其查询耗时较长。为了保留Hive的架构解决方案，并优化查询速度，采用SparkSql与hive整合(spark on hive)，

2022-01-05 16:26:14 2921

原创 Spark安装与使用

1、上传解压，配置环境变量配置bin目录2、修改配置文件 confcp spark-env.sh.template spark-env.sh增加配置export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME=/usr/loca

2022-01-05 13:24:07 386

转载 Spark RDD算子总结

1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根据需要重新分片。分布式：数据存储在大数据集群不同节点上数据集：RDD 封装了计算逻辑，并不保存数据数据抽象：RDD 是一个抽象类，需要子类具体实现

2022-01-04 17:06:33 434

原创 Spark常用算子之行为算子

Spark常用算子之行为算子foreach// foreach 没有返回值会触发job// 需要接收一个函数f：参数为RDD中的泛型，返回值类型为Unit // 1、读取students、scores数据 val stuRDD: RDD[String] = sc.textFile("Spark/data/stu/students.txt") // foreach 没有返回值会触发job // 需要接收一个函数f：参数为RDD中的泛型，返回值类型为Unit

2022-01-03 16:47:20 637 2

原创 Spark常用算子之转换算子

Spark是一种基于内存的通用计算框架，使用Scala语言实现，是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松的操作分布式数据集。

2021-12-30 22:04:03 2051

原创 Mac OS端安装win10、JDK环境变量及Intellij IDEA安装和配置

1、M1芯片的Mac 安装Windows系统(按需安装)安装步骤：https://www.macdo.cn/34696.html2、MAC安装JDK及环境变量配置安装步骤：https://blog.youkuaiyun.com/vvv_110/article/details/728971423、MAC版本 eclipse开发java环境配置安装步骤：https://blog.youkuaiyun.com/liuxiao723846/article/details/1088318874、MAC版本 intellij

2021-12-29 21:02:05 418

原创 Scala基本语法（一）

Scala是一门以Java虚拟机（JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言（静态语言需要提前编译的如：Java、c、c++等，动态语言如：js）。

2021-12-24 23:42:33 659

转载 MySQL数据处理之增删改

MySQL数据处理之增删改1. 插入数据1.1 实际问题解决方式：使用 INSERT 语句向表中插入数据。1.2 方式1：VALUES的方式添加使用这种语法一次只能向表中插入一条数据。情况1：为表的所有字段按默认顺序插入数据INSERT INTO 表名VALUES (value1,value2,....);值列表中需要为表的每一个字段指定值，并且值的顺序必须和数据表中字段定义时的顺序相同。举例：INSERT INTO departmentsVALUES (70, 'Pub',

2021-12-21 19:21:21 203

原创 python核心用法数据清洗（下）

2、预备知识-python核心用法常用数据分析库（下）文章目录2、预备知识-python核心用法常用数据分析库（下）概述实验环境任务二：Pandas数据分析实战-1【任务目标】【任务步骤】**分析数据问题**任务三：Pandas数据分析实战-2【任务目标】【任务步骤】**处理问题一****处理问题二****处理问题三四**概述Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器

2021-12-17 12:14:34 471

原创 python核心用法数据清洗（上）

1、预备知识-python核心用法常用数据分析库（上）文章目录1、预备知识-python核心用法常用数据分析库（上）**概述****实验环境****任务一：环境安装与配置****【实验目标】****【实验步骤】****任务二：Pandas数据分析实战****【任务目标】****【任务步骤】**概述Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用

2021-12-17 12:13:40 2017

原创 Python学习(三)之Numpy与Pandas的使用

文章目录1 Numpy简单使用1.1 Numpy介绍1.2 基本使用2 Pandas数据分析2.1 Pandas介绍Pandas基本使用1 Numpy简单使用1.1 Numpy介绍1 Numpy 是一个专门用于矩阵化运算、科学计算的开源Python2 NumPy将Python相当于变成一种免费的更强大的Matlab系统：强大的 ndarray 多维数组结构成熟的函数库用于整合C/C++和Fortran代码的工具包实用的线性代数、傅里叶变换和随机数模块Numpy 和稀疏矩阵运算包scip

2021-12-15 15:10:03 4688

原创 Pyrhon学习（二）

文章目录文件IOpymysql格式化日期字符串函数面向对象异常文件IO# 文件IO# open函数：# 读文件fr = open("data/students.txt", mode='r', encoding='utf8')print(fr.read(5)) # read(n) 表示读n个字符print(fr.readline()) # readline 读一行print(fr.readlines()) # readlines 读所有的行并构成list返回fr.close()

2021-12-13 22:30:07 747

原创 Python学习（一）

Python是一种计算机程序设计语言。Python就为我们提供了非常完善的基础代码库，覆盖了网络、文件、GUI、数据库、文本等大量内容，被形象地称作“内置电池（batteries included）”。用Python开发，许多功能不必从零编写，直接使用现成的即可。

2021-12-11 21:56:16 460

原创 “Windows 无法访问指定设备、路径或文件。你可能没有适当的权限访问该项目。”解决办法

前几天给电脑重新做了个系统，然后在E盘清理文件的时候突然发现有一个文件夹删不掉，没有权限，如图：点管理员权限继续也是不得行。于是乎我试图删除里面的单个文件，结果可想而知也是没有权限。如图：我又试图给文件夹添加权限：改完之后发现右击文件夹删除功能可以用了，但点击删除的时候又出问题了，不多说直接上图：于是乎我去网上搜该问题发现有两个原因和解决办法：①给文件添加系统权限②可能是因为电脑杀毒软件这两个办法我都试了一下都不行，最后我按照问题提示一步一步修改权限发现了问题所在：按照提示如下操作

2021-12-11 18:34:11 24298 7

原创 Kettle的安装及简单使用

Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

2021-12-10 20:52:19 323

原创数据集成工具之Flume的安装及使用

Flume 是一种分布式、可靠且可用的服务，用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可调整的可靠性机制和许多故障转移和恢复机制，具有健壮性和容错性。它使用一个简单的可扩展数据模型，允许在线分析应用程序。

2021-12-09 19:03:11 600

原创数据集成工具之FlinkX的安装与使用

FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架，实现了多种异构数据源之间高效的数据迁移。

2021-12-08 10:20:03 3775 3

原创数据集成工具之DataX的安装和使用

DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。本文介绍其安装及基本使用方法

2021-12-07 21:30:30 2083

原创数据集成工具之SQOOP的安装及使用

Apache Sqoop(TM) 是一种工具，旨在有效地在Apache Hadoop和结构化数据存储（例如关系数据库）之间传输批量数据。本文主要介绍sqoop工具的安装以及简单使用方法。

2021-12-06 19:40:39 234

原创 HBase之Phoenix搭建与使用

Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作，并支持标准SQL中大部分特性:条件运算,分组，分页，等高级查询语法。

2021-12-03 19:33:20 597

原创 HBase过滤器

HBase过滤器文章目录HBase过滤器作用比较过滤器比较运算符常见的六大比较过滤器BinaryComparatorBinaryPrefixComparatorNullComparatorBitComparatorRegexStringComparatorSubstringComparator示例代码rowKey过滤器：RowFilter列簇过滤器：FamilyFilter列过滤器：QualifierFilter列值过滤器：ValueFilter专用过滤器单列值过滤器：SingleColumnValueF

2021-12-02 19:50:32 608

全国空气质量分析.pdf

flinkx-1.10-sqoop-1.4.7.zip

hive-mysqlconnector.rar

hadoop-zookeeper-hbase.rar

空空如也