华子007-优快云博客

原创中文停用词表(1893个)

中文停用词

2022-06-04 16:27:29 6534

原创【数据库】对不起navicat我投入了DataGrip的怀抱

一、介绍DataGrip 版是由 JetBrains 公司（就是那个出品 Intellij IDEA 的公司）推出的数据库管理软件。如果你不爱折腾的话，这家公司出品的很多 IDE 都是你的最佳选择，比如你进行 Python 开发的可以选择 JetBrains 全家桶中的 PyCharm 。 DataGrip 支持几乎所有主流的关系数据库产品，如 DB2、Derby、H2、MySQL、Oracle、PostgreSQL、SQL Server、Sqllite 及 Sybase 等，并且...

2021-08-18 14:59:23 2792 3

原创【大数据】大数据技术框架，有这一篇文章就够了

独立寒秋，湘江北去，橘子洲头。看万山红遍，层林尽染；漫江碧透，百舸争流。鹰击长空，鱼翔浅底，万类霜天竞自由。怅寥廓，问苍茫大地，谁主沉浮？携来百侣曾游，忆往昔峥嵘岁月稠。.......（见结尾）.........大数据项目技术选型主要考虑因素如下：数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算等。石头哥哥给大家罗列除了一些企业里常见的大数据技术选型：数据采集传输：Flume、Kafka、Sqoop、Logstash、DataX 数据存储：..

2021-07-05 10:08:14 1470

原创【002】迈出Python程序第一步

首先呢，我们先来认识一下Jupyter notebook工具的工具栏，如下图：接下来，我们开始打代码：1、练习打印输出2、循环3、判断其实呢，python主要就是利用打印、判断、循环来实现功能的。后续开了直播课，再给大家详细的解说，增加心得内容进来~~...

2021-06-08 23:29:09 175

原创【003】Python实现：读写各种常用文件之方法汇总

python处理数据文件第一步是要读取数据，文件类型主要包括文本文件（csv、txt等）、excel文件、数据库文件、api等。下面整理下python有哪些方式可以读取数据文件。1. python内置方法,读取普通txt文件（read、readline、readlines）2.使用numpy库，多用于压缩、二进制文件等等（loadtxt、load、fromfile）loadtxt方法loadtxt用来读取文本文件（包含txt、csv等）以及.gz 或.bz2格式压缩文件，前提是文件数据每一行必

2021-06-05 15:05:35 1896

原创【001】Python数据分析环境准备

我们采用Python集成环境：Anaconda来作为python运行环境Anaconda下载地址(win-64位)：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.11-Windows-x86_64.exe安装步骤：双击下载好的程序，点击Next启动：启动anaconda在电脑的开始栏点击安装的anaconda。2. 启动jupyter notebook点击anaco

2021-06-02 17:27:56 170

原创【Python数据分析】零基础学Python的正确姿势

很多初学Python的同学都面临着很多的疑问，无论你是编程零基础、数学，英语不好、还是说没有一个好的学习路线和学习规划等等，都会让你在学习的路上有所怀疑，进步缓慢，没有方向~~今天呢给大家讲以下问题：很多人都在问Python学习步骤应该如何安排？多长时间可以达到精通呢？其实这类问题，都是需要一个人去给以梳理和肯定，精不精通需要多久，完全看自己投入的精力有多大~Python学习步骤应该怎样安排：学习Python编程技术，自学或者参加培训学习都适用，每个人都有自己的学习方式和方法。大体部分总结为：.

2021-06-02 16:37:47 197

原创【hive】一篇文章带你绕坑儿走：可视化连接工具DBeaver安装

1、修改hadoop配置文件vim hadoop-3.1.2/etc/hadoop/core-site.xml添加或修改如下内容：因为hadoop不允许其他框架直接操作数据，需要配置用户代理权限，*代表所有权限<property> <name>hadoop.proxyuser.你的用户名.hosts</name> <value>*</value></property><property> <n

2020-09-14 16:57:43 396

原创 Azkaban工作流调度器(二)执行python工作流

1.job 创建假设有这么一种场景：(1).task1 依赖 task2(2).task2 依赖 task3(3).task3 依赖 task4说明：假设task1是一个计算指标任务，task2 给 task1 提供执行需要的基础数据task3 给 task2 提供数据，以此类推。2.flow 创建多个jobs和它们的依赖组成flow。怎么创建依赖，只要指定dependencies参数就行了定义4个job:(1).run_task1.job：计算业务指标数据(2).run_task2.

2020-08-20 17:21:54 2692

原创 Azkaban工作流调度器(一)基本使用，定时任务

【练功篇】25-Azkaban-工作流调度器一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系，工作流调度器可以很好的帮他们建立先后执行顺序3、工作流调度器可非常方便进行定时任务例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如下所示：1、通过 Hadoop 先将原始数据同步到 HDF

2020-05-23 17:39:03 1784 5

转载【hive】hive 分区（partition）简介(转)

网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned ...

2020-02-07 22:13:41 482

原创【hive】hive 显示当前数据库名

配置前：首先我们要明白，当hive CLI启动时，在hive > 提示符出现之前会优先执行文件.hiverc，Hive会自动在${HIVE_HOME}/bin目录下寻找名为.hiverc文件，由此可以在这个文件中设置配置一些常用的参数。（由于它是隐藏文件，我们可以用Linux的ls -a命令查看。如果没有此文件，直接创建加入配置即可）开始编辑文件：${HIVIE_HOME}/bin/...

2020-02-07 18:24:28 732

原创【大数据开发环境】环境搭建之阿里云最低配伪分布式

基本的环境搭建就不再多说，也是照着各种博客开始搭建。个人心得：各框架的目录都大同小异（lib：存放资源库，bin|sbin：启动脚本等，conf：配置文件）基本每个框架都要记得添加PATH(最好配置为系统path：/etc/profile中)很多大数据框架都建立在hadoop之上，一定好搭建好hadoop(jps时刻关注各进程的状态，有时会诡异被kill掉，此时多从内存上着手排查)，搭建...

2020-02-06 21:26:49 264

guiliVideo.rar

guiliVideo.rar谷粒影音项目视频表、用户表。包含谷粒影音项目的User表74702条用户信息数据和5张video表，每张表都有几百条数据，解压后数据大小总共有238兆，非常适合学习hive和训练大数据项目的人使用

2020-05-26

azkaban-3.38安装包（已编译）

版本：3.38，解压后，配置自己的环境可直接用 azkaban-3.38.0\azkaban-db azkaban-3.38.0\azkaban-exec-server azkaban-3.38.0\azkaban-solo-server azkaban-3.38.0\azkaban-web-server ----------------后续步骤------------------ 1.创建数据库并导入基本数据（1）创建数据库 create database azkaban; （2）mysql授权 GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIVILEGES; （3）导入数据 use azkaban； source /opt/azkaban-3.38.0/azkaban-db/create-all-sql-0.1.0-SNAPSHOT.sql 2. ssl配置 cd /opt/azkaban-3.38.0\azkaban-web-server keytool -keystore keystore -alias jetty -genkey -keyalg RSA 输入密钥库口令: 再次输入新口令: 您的名字与姓氏是什么? [Unknown]: xue 您的组织单位名称是什么? [Unknown]: xue 您的组织名称是什么? [Unknown]: xue 您所在的城市或区域名称是什么? [Unknown]: beijing 您所在的省/市/自治区名称是什么? [Unknown]: beijing 该单位的双字母国家/地区代码是什么? [Unknown]: CN CN=xue, OU=xue, O=xue, L=beijing, ST=beijing, C=CN是否正确? [否]: Y 输入的密钥口令 (如果和密钥库口令相同, 按回车): 3.修改azkaban-exec-server下配置文件，引入mysql的依赖包（1）将azkaban-solo-server下conf、plugins、sql目录复制到azkaban-exec-server目录下 cd azkaban-3.38.0/azkaban-solo-server/ cp -a ./conf ./plugins ./sql ../azkaban-exec-server （2）修改azkaban-exec-server/conf/的azkaban.properties文件 # Azkaban Personalization Settings azkaban.name=master azkaban.label=My Local Azkaban azkaban.color=#FF3601 azkaban.default.servlet.path=/index web.resource.dir=web/ #修改时区 default.timezone.id=Asia/Shanghai # Azkaban UserManager class user.manager.class=azkaban.user.XmlUserManager #修改为绝对路径，否则可能找不到 user.manager.xml.file=/opt/azkaban-3.38.0/azkaban-exec-server/conf/azkaban-users.xml # Loader for projects executor.global.properties=/opt/azkaban-3.38.0/azkaban-exec-server/conf/global.properties azkaban.project.dir=projects database.type=mysql mysql.port=3306 mysql.host=master mysql.database=azkaban mysql.user=root mysql.password=123456 mysql.numconnections=100 (其他默认) 4. 在conf目录下新建log4j.properties文件 [root@master azkaban-exec-server]# vim conf/log4j.properties 复制以下内容到log4j文件： log4j.rootLogger=INFO, Console log4j.logger.azkaban=INFO, server log

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

oYuZhongManBu1234的博客

原创中文停用词表(1893个)

原创【数据库】对不起navicat我投入了DataGrip的怀抱

原创【大数据】大数据技术框架，有这一篇文章就够了

原创【002】迈出Python程序第一步

原创【003】Python实现：读写各种常用文件之方法汇总

原创【001】Python数据分析环境准备

原创【Python数据分析】零基础学Python的正确姿势

原创【hive】一篇文章带你绕坑儿走：可视化连接工具DBeaver安装

原创 Azkaban工作流调度器(二)执行python工作流

原创 Azkaban工作流调度器(一)基本使用，定时任务

转载【hive】hive 分区（partition）简介(转)

原创【hive】hive 显示当前数据库名

原创【大数据开发环境】环境搭建之阿里云最低配伪分布式

guiliVideo.rar

azkaban-3.38安装包（已编译）

逻辑回归实现图片识别猫识别python

AlarmManager实现精准定时

Android记事本备忘录（包含闹铃提醒功能）源码

android下popwindow的使用

android基于xml的天气解析

android下box2d小demo

jni返回对象数组例子

空空如也

guiliVideo.rar

azkaban-3.38安装包（已编译）

逻辑回归实现图片识别 猫识别python

AlarmManager实现精准定时

Android记事本 备忘录（包含闹铃提醒功能）源码

android下popwindow的使用

android基于xml的天气解析

android下box2d小demo

jni返回对象数组例子

空空如也

逻辑回归实现图片识别猫识别python

Android记事本备忘录（包含闹铃提醒功能）源码