- 博客(13)
- 资源 (9)
- 收藏
- 关注
原创 【数据库】对不起navicat我投入了DataGrip的怀抱
一、介绍DataGrip 版是由 JetBrains 公司(就是那个出品 Intellij IDEA 的公司)推出的数据库管理软件。如果你不爱折腾的话,这家公司出品的很多 IDE 都是你的最佳选择,比如你进行 Python 开发的可以选择 JetBrains 全家桶中的 PyCharm 。 DataGrip 支持几乎所有主流的关系数据库产品,如 DB2、Derby、H2、MySQL、Oracle、PostgreSQL、SQL Server、Sqllite 及 Sybase 等,并且...
2021-08-18 14:59:23
2792
3
原创 【大数据】大数据技术框架,有这一篇文章就够了
独立寒秋,湘江北去,橘子洲头。看万山红遍,层林尽染;漫江碧透,百舸争流。鹰击长空,鱼翔浅底,万类霜天竞自由。怅寥廓,问苍茫大地,谁主沉浮?携来百侣曾游,忆往昔峥嵘岁月稠。.......(见结尾).........大数据项目技术选型主要考虑因素如下:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算等。石头哥哥给大家罗列除了一些企业里常见的大数据技术选型: 数据采集传输:Flume、Kafka、Sqoop、Logstash、DataX 数据存储:..
2021-07-05 10:08:14
1470
原创 【002】迈出Python程序第一步
首先呢,我们先来认识一下Jupyter notebook工具的工具栏,如下图:接下来,我们开始打代码:1、练习打印输出2、循环3、判断其实呢,python主要就是利用打印、判断、循环来实现功能的。后续开了直播课,再给大家详细的解说,增加心得内容进来~~...
2021-06-08 23:29:09
175
原创 【003】Python实现:读写各种常用文件之方法汇总
python处理数据文件第一步是要读取数据,文件类型主要包括文本文件(csv、txt等)、excel文件、数据库文件、api等。下面整理下python有哪些方式可以读取数据文件。1. python内置方法,读取普通txt文件(read、readline、readlines)2.使用numpy库,多用于压缩、二进制文件等等(loadtxt、load、fromfile)loadtxt方法loadtxt用来读取文本文件(包含txt、csv等)以及.gz 或.bz2格式压缩文件,前提是文件数据每一行必
2021-06-05 15:05:35
1896
原创 【001】Python数据分析环境准备
我们采用Python集成环境:Anaconda来作为python运行环境Anaconda下载地址(win-64位):https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.11-Windows-x86_64.exe安装步骤:双击下载好的程序,点击Next启动:启动anaconda在电脑的开始栏点击安装的anaconda。2. 启动jupyter notebook点击anaco
2021-06-02 17:27:56
170
原创 【Python数据分析】零基础学Python的正确姿势
很多初学Python的同学都面临着很多的疑问,无论你是编程零基础、数学,英语不好、还是说没有一个好的学习路线和学习规划等等,都会让你在学习的路上有所怀疑,进步缓慢,没有方向~~今天呢给大家讲以下问题:很多人都在问Python学习步骤应该如何安排?多长时间可以达到精通呢?其实这类问题,都是需要一个人去给以梳理和肯定,精不精通需要多久,完全看自己投入的精力有多大~Python学习步骤应该怎样安排:学习Python编程技术,自学或者参加培训学习都适用,每个人都有自己的学习方式和方法。大体部分总结为:.
2021-06-02 16:37:47
197
原创 【hive】一篇文章带你绕坑儿走:可视化连接工具DBeaver安装
1、修改hadoop配置文件vim hadoop-3.1.2/etc/hadoop/core-site.xml添加或修改如下内容:因为hadoop不允许其他框架直接操作数据,需要配置用户代理权限,*代表所有权限<property> <name>hadoop.proxyuser.你的用户名.hosts</name> <value>*</value></property><property> <n
2020-09-14 16:57:43
396
原创 Azkaban工作流调度器(二)执行python工作流
1.job 创建假设有这么一种场景:(1).task1 依赖 task2(2).task2 依赖 task3(3).task3 依赖 task4说明:假设task1是一个计算指标任务,task2 给 task1 提供执行需要的基础数据task3 给 task2 提供数据,以此类推。2.flow 创建多个jobs和它们的依赖组成flow。怎么创建依赖,只要指定dependencies参数就行了定义4个job:(1).run_task1.job:计算业务指标数据(2).run_task2.
2020-08-20 17:21:54
2692
原创 Azkaban工作流调度器(一)基本使用,定时任务
【练功篇】25-Azkaban-工作流调度器一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系,工作流调度器可以很好的帮他们建立先后执行顺序3、工作流调度器可非常方便进行定时任务例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 通过 Hadoop 先将原始数据同步到 HDF
2020-05-23 17:39:03
1784
5
转载 【hive】hive 分区(partition)简介(转)
网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned ...
2020-02-07 22:13:41
482
原创 【hive】hive 显示当前数据库名
配置前:首先我们要明白,当hive CLI启动时,在hive > 提示符出现之前会优先执行文件.hiverc,Hive会自动在${HIVE_HOME}/bin目录下寻找名为.hiverc文件,由此可以在这个文件中设置配置一些常用的参数。(由于它是隐藏文件,我们可以用Linux的ls -a命令查看。如果没有此文件,直接创建加入配置即可)开始编辑文件:${HIVIE_HOME}/bin/...
2020-02-07 18:24:28
732
原创 【大数据开发环境】环境搭建之阿里云最低配伪分布式
基本的环境搭建就不再多说,也是照着各种博客开始搭建。个人心得:各框架的目录都大同小异(lib:存放资源库,bin|sbin:启动脚本等,conf:配置文件)基本每个框架都要记得添加PATH(最好配置为系统path:/etc/profile中)很多大数据框架都建立在hadoop之上,一定好搭建好hadoop(jps时刻关注各进程的状态,有时会诡异被kill掉,此时多从内存上着手排查),搭建...
2020-02-06 21:26:49
264
guiliVideo.rar
2020-05-26
azkaban-3.38安装包(已编译)
2020-05-22
AlarmManager实现精准定时
2015-05-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人