- 博客(7)
- 收藏
- 关注
原创 【Airflow】光速入门指南
Airflow中最为关键的概念就是DAG,中文名称是有向无环图(Directed Acyclic Graph)一个DAG代表着一个较为完整的流程,其中的组成部分是执行不同步骤的Task。如果说DAG是一条珍珠项链,那么TASK就是其中的珍珠。珍珠项链可以有不同的形态、数量和组合方式,DAG和TASK也是同理。#方式一:类的实例化test_task = PythonOperator( #以PythonOperator为例,也可以定义使用其他的Operator。
2024-11-06 11:46:29
2412
原创 【问题记录】sqlite文件自动变为空
如果是直接使用像pandas.to_sql()这样的函数进行插入,应该就会隐藏commit地操作,在直接使用sql语句进行插入的时候产生错误。因此,需要执行con.commit()操作才能正确插入。(PS:pandas.to_sql()真的比SQL语句插入慢非常非常多,所以还是少用的好)❌ 将全过程改为在同一个函数当中进行之后仍然没有解决此问题。❌ 将处理的文件大小改为较小的文件后仍然如此。也就是说函数执行结束之后就会清空文件。在连接关闭语句结束之后就会清空文件。删去关闭语句之后就会清空文件。
2024-08-23 14:28:25
324
原创 【Airflow】TaskGroup使用实例
设置上下游任务的时候可以设为任务组,有必要时会应用于组内所有的任务。task group本质是将多个任务同时进行触发时,使用的。也就是一个节点需要有多个操作时,可以考虑使用task group。
2024-08-20 14:58:13
501
原创 【Airflow】基于数据的调度 -条件触发
Airflow的数据调度机制是以上游的producer DAG的结果为准,触发下游的Consumer DAG的。也就是说,producer中的任务执行的结果可以看作consumer的触发条件。producer中最后一个condition task中的逻辑改为:如果不满足更新条件,则不会执行将文件同步至FLIE_PATH的操作(即不会触发FLIE_PATH的变化)。所以数据调度的控制条件可以放在producer的最后一个任务中,或者是consumer的第一个任务中。DATA_PATH:存储原始数据的文件夹。
2024-07-19 14:22:50
927
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人