
airflow
permike
adsfdfsadfasdfasdfsdfasdf
展开
-
一个非常好用的data pipeline管理工具 airflow
什么是ETLETL 是常用的数据处理,在以前的公司里,ETL 差不多是数据处理的基础,要求非常稳定,容错率高,而且能够很好的监控。ETL的全称是 Extract,Transform,Load, 一般情况下是将乱七八糟的数据进行预处理,然后放到储存空间上。可以是SQL的也可以是NoSQL的,还可以直接存成file的模式。一开始我的设计思路是,用几个cron job和celery来handle原创 2016-06-07 13:11:49 · 6446 阅读 · 0 评论 -
airflow开启自动化schedule
需要在创建DAG是添加参数schedule_interval= "@daily"/once/hourly/配置好airflow.cfg后,初始化数据airflow initdb或者,重置数据:airflow resetdb开启airflow web页面:airflow webserver &开启schedule:airflow scheduler原创 2016-07-13 18:01:10 · 5779 阅读 · 0 评论 -
airflow详细配置说明
[core]# The home folder for airflow, default is ~/airflowairflow_home = /home/frappe/airflow# The folder where your airflow pipelines live, most likely a# subfolder in a code repositorydags_fold原创 2016-08-11 17:15:24 · 8172 阅读 · 1 评论