自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 【Airflow】光速入门指南

Airflow中最为关键的概念就是DAG,中文名称是有向无环图(Directed Acyclic Graph)一个DAG代表着一个较为完整的流程,其中的组成部分是执行不同步骤的Task。如果说DAG是一条珍珠项链,那么TASK就是其中的珍珠。珍珠项链可以有不同的形态、数量和组合方式,DAG和TASK也是同理。#方式一:类的实例化test_task = PythonOperator( #以PythonOperator为例,也可以定义使用其他的Operator。

2024-11-06 11:46:29 2412

原创 【SQLServer】远端数据同步

上下游均为SQLServer,需要将上游的表全部同步一份至下游的SQLServer。

2024-10-14 19:01:31 1351 1

原创 【问题记录】sqlite文件自动变为空

如果是直接使用像pandas.to_sql()这样的函数进行插入,应该就会隐藏commit地操作,在直接使用sql语句进行插入的时候产生错误。因此,需要执行con.commit()操作才能正确插入。(PS:pandas.to_sql()真的比SQL语句插入慢非常非常多,所以还是少用的好)❌ 将全过程改为在同一个函数当中进行之后仍然没有解决此问题。❌ 将处理的文件大小改为较小的文件后仍然如此。也就是说函数执行结束之后就会清空文件。在连接关闭语句结束之后就会清空文件。删去关闭语句之后就会清空文件。

2024-08-23 14:28:25 324

原创 【问题记录】解析大型XML(爆内存解决过程记录)

硬件条件:内存8G,可用内存7.76G,四核解析目标:每个文件均为.xml.gz。

2024-08-21 11:30:09 1156

原创 【Airflow】TaskGroup使用实例

设置上下游任务的时候可以设为任务组,有必要时会应用于组内所有的任务。task group本质是将多个任务同时进行触发时,使用的。也就是一个节点需要有多个操作时,可以考虑使用task group。

2024-08-20 14:58:13 501

原创 【Airflow】基于数据的调度 -条件触发

Airflow的数据调度机制是以上游的producer DAG的结果为准,触发下游的Consumer DAG的。也就是说,producer中的任务执行的结果可以看作consumer的触发条件。producer中最后一个condition task中的逻辑改为:如果不满足更新条件,则不会执行将文件同步至FLIE_PATH的操作(即不会触发FLIE_PATH的变化)。所以数据调度的控制条件可以放在producer的最后一个任务中,或者是consumer的第一个任务中。DATA_PATH:存储原始数据的文件夹。

2024-07-19 14:22:50 927

原创 【Airflow】基于数据的调度 -使用实例

Airflow基于数据的调度实例

2024-07-17 11:39:47 1035 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除