- 博客(14)
- 资源 (2)
- 收藏
- 关注
原创 Airflow学习之路五 Airflow性能优化(airflow.cfg配置)
Airflow2.0版本[core][logging][webserver][scheduler][core]# dags存放路径dags_folder = /home/xxx/airflow/dags# 获取服务器IP的方式hostname_callable = socket.getfqdn# 时区,可以是UTC(默认),也可以换成国内Asia/Shanghaidefault_timezone = utc# airflow支持并行性的工作器,有`SequentialExecutor`(默认
2021-03-08 15:30:31
1826
原创 Airflow学习之路四 Scheduler时间调度
概念文档1中有如下几句话:The first DAG Run is created based on the minimum start_date for the tasks in your DAG. Subsequent DAG Runs are created by the scheduler process, based on your DAG’s schedule_interval, sequentially.If you run a DAG on a schedule_interval o
2021-03-03 14:45:04
1854
翻译 Airflow学习之路三 airflow最佳实践
在airflow官方文档1中不推荐使用动态的start_date。start_date是前DagRun部分遗留,但仍然运用在许多方面。当创建了一个新的DAG时, 对于你的任务可能需要使用default_args来设置一个全局的start_date。建立的第一个DagRun将会基于所有任务中最小的(start_date)。从那时起,调度程序将会根据你的schedule_interval 来建立新的DagRun,并且在满足所设立的依赖时运行相应的任务实例。将新任务引入DAG时,需要特别注意start_date
2021-03-02 16:57:16
753
翻译 Airflow学习之路一 概念
Airflow学习之路一 概念Concept IntroductionDAGSDefault ArgumentsDAG Runsexecution_dateOperatorsTasksTask InstancesDAGSDAG是一个由n(n⩾1n\geqslant1n⩾1)个task构成的有向无环图。它记录了任务之间的逻辑关系,调度时间,任务状态等等。Default Arguments以字典的形式将参数传入DAG中。官方文档1中将参数统一放置于default_args中,其适用于任意实例化运算符
2021-03-01 14:14:33
220
原创 回归类模型的种类
数据状况 对应模型 Python函数 数据为理想状态 线性回归模型/一般线性模型 statesmodles.regression.liner_model* sklearn.liner_model.LinerRegression 非线性关联/存在高次项/交互项 曲线直线化 sklearn.preprocessing.Polyn...
2019-05-14 10:48:48
1976
原创 挖掘建模之K-means聚类算法
定义K-Means算法(K-均值聚类)是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大。算法过程从N个样本数据中随机选取K个对象作为初始的聚类中心分别计算每个样本到各聚类中心的距离,将对象分配到距离最近的聚类中所有对象分配完成之后,重新计算K个聚类的中心与前一次计算得到的K个聚类中...
2019-05-07 20:04:39
711
原创 挖掘建模之神经网络
人工神经网络是一种模拟生物神经网络进行信息处理的数学模型。人工神经网络的设计是以人工神经元为基础的。它也是人工神经网络操作的基本信息处理单位。上图为人工神经元模型。图中的激活函数有如下几种激活函数在分类与预测,δ学习规则(误差校正学习算法)是使用最为广泛的一种。常用的用来实现否对、、分类和预测的人工神经网络算法有人工神经网络BP神经网络的学习算法是δ学习规则,目标函数采用E=∑...
2019-04-24 20:02:46
556
原创 Sklearn学习_01数据挖掘概述
通过下面这张图了解一下Sklearn的工作原理这是一张CRISP-DM,即为"跨行业数据挖掘标准流程"。它强调的是一个循环迭代的过程。想要详细的了解这张图可以在https://www.bigdatas.cn/article-2103-1.html该网站中了解。在这张图中Sklearn是从"数据准备"阶段开始的。首先,Sklearn有预处理的模块,可以把特征进行提取和归一化 ,把相应的原始输入...
2019-04-18 16:28:53
674
原创 Python常用库_01—Numpy
什么是NumpyNumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndar...
2019-04-17 17:09:29
261
原创 第六章——电力窃漏电用户自动识别 实验一
实验一是处理表格中的缺失值,这里用的是拉格朗日插值法# 导入pandas数据分析库import pandas as pd# 导入lagrange插值函数from scipy.interpolate import lagrange# 忽略警告信息import warningswarnings.filterwarnings('ignore')# 输入数据的路径inputfile =...
2019-04-16 21:09:47
1275
1
ID3.Python.zip
2019-12-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人