落地大数据的螺丝钉-优快云博客

原创数据仓库中的数据生命周期管理

数据生命周期管理能帮助企业合理利用资源，优化数据仓库性能，并确保符合合规要求。从数据采集到销毁的每个阶段都需要严密规划和执行，为业务提供可靠的数据支持。

2024-12-12 11:06:41 2218

创建存储过程create or replace procedure 存储过程名称(参数名1 in 参数类型,参数名2 in 参数类型,参数名 out 参数类型)asbegin --处理方法-end;举例create or replace procedure Proc_Test(num_A in integer,num_B in integer,num_C out integer)asbegin num_C := num_A + num_

2022-04-29 15:52:02 2420

原创 elasticsearch es 基本的增删改查

可视化工具postman下对es的增删改查操作

2022-03-09 17:14:52 1696

原创 mac docker安装elasticsearch

docker pull elasticsearch镜像docker pull docker.elastic.co/elasticsearch/elasticsearch:7.7.0配置 elasticsearch创建 elasticsearch.ymlcluster.name: "elasticsearch7.7.0"network.host: 0.0.0.0node.name: node0http.host: 0.0.0.0http.cors.enabled: truehttp.c

2022-03-09 16:42:50 738

原创解决github无法加载图片

命令行输入sudo vi /etc/hosts最后面追加199.232.28.133 raw.githubusercontent.com然后保存然后刷新页面就有图片了

2020-10-15 19:09:08 210

原创基金api接口实时数据

基金实时信息：http://fundgz.1234567.com.cn/js/001186.js?rt=1463558676006001186为基金代号返回值：jsonpgz({“fundcode”:“001186”,“name”:“富国文体健康股票”,“jzrq”:“2016-05-17”,“dwjz”:“0.7420”,“gsz”:“0.7251”,“gszzl”:"-2.28",“gztime”:“2016-05-18 15:00”});基金详细信息：http://fund.eastmoney.

2020-09-15 14:33:31 7298 4

原创 chromedriver下载

chromedriver的版本一定要与Chrome的版本一致，不然就不起作用。有两个下载地址：1、http://chromedriver.storage.googleapis.com/index.html2、https://npm.taobao.org/mirrors/chromedriver/当然，你首先需要查看你的Chrome版本，在浏览器中输入chrome://version/...

2020-09-03 11:33:09 290

原创 python 读取mysql写入csv文件

-- coding: utf-8 --import pandas as pdimport pymysqlconn = pymysql.connect(host=‘localhost’, user=‘root’, passwd=‘123’, db=‘your_db’, charset=‘utf8’,use_unicode=True)sql = “select * from your_table”df = pd.read_sql(sql, con=conn)df.to_csv(“test.csv”)

2020-08-14 16:39:21 606

原创 Hive的底层计算框架默认是MapReduce，还有两种是Tez和Spark这几种的区别是什么？计算速度上为什么会有明显的差异？

mapreduce:基于磁盘的迭代,中间结果保存在文件中spark:基于内存的,中间结果无需落地磁盘，减少了磁盘IO的操作,DAG计算模型-可以减少shuffle次数sparkmrspark遇到宽依赖才会发生shuffle一次mr任务就会发生一次spark在map端会完成排序mr在reduce端会进行归并排序spark先放内存mr直接放磁盘tez:也有dag有向无关图，container重用，但部署繁琐...

2020-07-20 15:54:45 1358

原创 Hive窗口函数有哪些

row_number() 1234 顺序dense_rank() 11234 无空位rank()1224 有空位

2020-07-20 15:49:34 393

原创 Hive调优一个hive很慢怎么办发生过数据倾斜吗怎么处理

优化

2020-06-10 15:01:15 375

原创 hive 每周第一天最后一天每月第一天最后一天

每周第一天select date_sub('2020-06-09',cast(date_format('2020-06-09','u') as int)-1) ;每周最后一天select date_sub('2020-06-09',cast(date_format('2020-06-09','u') as int)-7) ;每月第一天select trunc(current_date(),'MM');

2020-06-10 10:56:37 2312 1

Eve_008的博客