
大数据
文章平均质量分 71
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
流式系统:第九章到第十章
原文:Streaming Systems译者:飞龙协议:CC BY-NC-SA 4.0第九章:流连接当我开始学习连接时,这是一个令人生畏的话题;LEFT、OUTER、SEMI、INNER、CROSS:连接的语言是富有表现力和广泛的。再加上流带来的时间维度,你会发现这似乎是一个具有挑战性的复杂话题。好消息是,连接实际上并不是一开始看起来那么可怕的野兽,它没有令人畏惧的尖牙。与许多其他复杂话题一样,一旦你理解了连接的核心思想和主题,建立在这些基础之上的更广泛的景观突然变得更加易于访问。所以请加入我,原创 2024-01-19 18:41:02 · 1266 阅读 · 0 评论 -
流式系统:第五章到第八章
原文:Streaming Systems译者:飞龙协议:CC BY-NC-SA 4.0第五章:一次性和副作用我们现在从讨论编程模型和 API 转向实现它们的系统。模型和 API 允许用户描述他们想要计算的内容。在规模上准确地运行计算需要一个系统——通常是一个分布式系统。在本章中,我们将重点介绍一个实现系统如何正确实现 Beam 模型以产生准确结果。流处理系统经常谈论一次性处理;也就是确保每个记录只被处理一次。我们将解释我们的意思,并介绍如何实现它。作为一个激励性的例子,本章重点介绍了 Goo原创 2024-01-19 18:36:01 · 895 阅读 · 0 评论 -
流式系统:前言到第四章
原文:Streaming Systems译者:飞龙协议:CC BY-NC-SA 4.0前言或:你在这里要做什么?你好,冒险的读者,欢迎来到我们的书!在这一点上,我假设你要么对学习更多关于流处理的奇迹感兴趣,要么希望花几个小时阅读关于雄伟的棕色鳟鱼的荣耀。无论哪种方式,我都向你致敬!也就是说,属于后一种类型的人,如果你对计算机科学没有高级的理解,那么在继续前,你应该考虑一下你是否准备好面对失望;警告渔夫,等等。为了从一开始就设定这本书的基调,我想提醒你一些事情。首先,这本书有点奇怪,因为我们有多原创 2024-01-19 18:33:09 · 847 阅读 · 0 评论 -
JavaTPoint 大数据和云计算中文教程【翻译完成】
原文:JavaTPoint协议:CC BY-NC-SA 4.0阶段:机翻(1)危机只有发展到最困难的阶段,才有可能倒逼出有效的解决方案。——《两次全球大危机的比较研究》在线阅读在线阅读(Gitee)ApacheCN 学习资源目录Hadoop 教程HBase 教程Hive 教程SqoopPIG 教程Spark 教程Kafka 教程Solr 教程Dialogflow 教程PySpark 教程Apache NiFi 教程OpenStack 教程Kibana 教程.原创 2022-02-15 22:41:47 · 411 阅读 · 0 评论 -
ApacheCN 大数据译文集(二) 20211206 更新
Hadoop3 大数据分析零、前言一、Hadoop 简介二、大数据分析概述三、MapReduce 大数据处理四、基于 Python 和 Hadoop 的科学计算和大数据分析五、基于 R 和 Hadoop 的统计大数据计算六、Apache Spark 批处理分析七、Apache Spark 实时分析八、Apache Flink 批处理分析九、Apache Flink 流处理十、可视化大数据十一、云计算简介十二、使用亚马逊网络服务Hadoop 和 R 大数据分析零、前言.原创 2021-12-08 21:23:57 · 1515 阅读 · 0 评论 -
ApacheCN 大数据译文集 20211206 更新
PySpark 大数据分析实用指南零、前言一、安装 Pyspark 并设置您的开发环境二、使用 RDD 将您的大数据带入 Spark 环境三、Spark 笔记本的大数据清理和整理四、将数据汇总成有用的报告五、强大的 MLlib 探索性数据分析六、使用 SparkSQL 构建大数据结构七、转换和动作八、不变设计九、避免打乱和降低操作成本十、以正确的格式保存数据十一、使用 Spark 键/值应用编程接口十二、测试 ApacheSpark 作业十三、利用 Spark 图形接口.原创 2021-12-08 21:20:55 · 1957 阅读 · 0 评论 -
Airflow 中文文档:常见问题
为什么我的任务没有安排好?您的任务可能无法安排的原因有很多。 以下是一些常见原因:您的脚本是否“编译”,Airflow引擎是否可以解析它并找到您的DAG对象。 要对此进行测试,您可以运行airflow list_dags并确认您的DAG显示在列表中。 您还可以运行airflow list_tasks foo_dag_id --tree并确认您的任务按预期显示在列表中。 如果您使用Celery...翻译 2018-11-29 18:07:48 · 39408 阅读 · 0 评论 -
Airflow 中文文档:API 参考
运营商运算符允许生成某些类型的任务,这些任务在实例化时成为DAG中的节点。 所有运算符都派生自BaseOperator ,并以这种方式继承许多属性和方法。 有关更多详细信息,请参阅BaseOperator文档。有三种主要类型的运营商:执行操作的操作员,或告诉其他系统执行操作的操作员传输操作员将数据从一个系统移动到另一个系传感器是某种类型的运算符,它将一直运行直到满足某个标准。 示例包括...翻译 2018-11-29 18:08:10 · 42277 阅读 · 0 评论 -
Airflow 中文文档:项目
历史Airflow于2014年10月由Airbnb的Maxime Beauchemin开始。 它是第一次提交的开源,并在2015年6月宣布正式加入Airbnb Github。该项目于2016年3月加入了Apache Software Foundation的孵化计划。提交者@mistercrunch(Maxime“Max”Beauchemin)@ r39132(Siddharth“Sid...翻译 2018-11-28 19:58:52 · 38666 阅读 · 0 评论 -
Airflow 中文文档:快速开始
安装快速而直接。 # airflow needs a home, ~/airflow is the default,# but you can lay foundation somewhere else if you prefer# (optional)export AIRFLOW_HOME = ~/airflow# install from pypi using pippip in...翻译 2018-11-28 20:00:55 · 39521 阅读 · 0 评论 -
Airflow 中文文档:安装
获得气流安装最新稳定版Airflow的最简单方法是使用pip :pip install apache-airflow您还可以安装Airflow,支持s3或postgres等额外功能:pip install apache-airflow [ postgres,s3 ]注意GPL依赖默认情况下,Apache Airflow的一个依赖项是拉入GPL库(‘unidecode’)。 如...翻译 2018-11-28 20:03:06 · 39305 阅读 · 0 评论 -
Airflow 中文文档:教程
本教程将向您介绍一些基本的Airflow概念,对象及其在编写第一个管道时的用法。示例管道定义以下是基本管道定义的示例。 如果这看起来很复杂,请不要担心,下面将逐行说明。 """Code that goes along with the Airflow tutorial located at:https://github.com/apache/incubator-airflow/blob/...翻译 2018-11-28 20:04:42 · 41055 阅读 · 0 评论 -
Airflow 中文文档:设置配置选项
第一次运行Airflow时,它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件(默认情况下为~/airflow $AIRFLOW_HOME )。 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置。 您还可以使用以下格式设置带有环境变量的选项: $AIRFLOW__{SECTION}__{KEY} (注意双下划线)。例如,元数据库连接字符串可以在airf...翻译 2018-11-28 20:07:35 · 39402 阅读 · 0 评论 -
Airflow 中文文档:初始化数据库后端
如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor。由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端。 我们建议使用MySQL或Postgres 。注意我们依赖更严格的MySQL SQL设置来获得合理的默认值。 确保在<cite&g...翻译 2018-11-28 20:08:48 · 40089 阅读 · 0 评论 -
Airflow 中文文档:使用操作器
操作器代表一个理想情况下是幂等的任务。 操作员确定DAG运行时实际执行的内容。有关更多信息,请参阅Operators Concepts文档和Operators API Reference 。BashOperator模板故障排除找不到Jinja模板PythonOperator传递参数模板Google云端平台运营商GoogleCloudStorageToBig...翻译 2018-11-28 20:10:20 · 38899 阅读 · 0 评论 -
Airflow 中文文档:管理连接
Airflow需要知道如何连接到您的环境。 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin-&gt;Connection部分中处理。 您将创作的管道代码将引用Connection对象的“conn_id”。可以使用UI或环境变量创建和管理连接。有关更多信息,请参阅Connenctions Concepts文档。使用UI创建连接打开UI的Admin-&gt...翻译 2018-11-28 20:13:03 · 39653 阅读 · 0 评论 -
Airflow 中文文档:保护连接
默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码。 在安装过程中强烈建议使用crypto包。 crypto包确实要求您的操作系统安装了libffi-dev。如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密:安装crypto包pip install apache-airflow[crypto]使用下面的代码片段生成fernet_key。 fernet...翻译 2018-11-28 20:14:53 · 38963 阅读 · 0 评论 -
Airflow 中文文档:Lineage
注意Lineage 支持是非常实验性的,可能会发生变化。Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。 from airflow.operators.bash_operator import BashOperatorfrom airfl...翻译 2018-11-29 18:04:46 · 38790 阅读 · 0 评论 -
Airflow 中文文档:集成
反向代理Azure:Microsoft AzureAWS:亚马逊网络服务DatabricksGCP:Google云端平台反向代理可以在反向代理后面设置气流,并能够灵活地设置其端点。例如,您可以配置反向代理以获取: https : // lab . mycompany . com / myorg / airflow /为此,您需要在<cite>airflow.c...翻译 2018-11-29 18:03:37 · 39016 阅读 · 0 评论 -
Airflow 中文文档:写日志
在本地编写日志用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本地日志,将显示远程日志。 请注意,只有在任务完成(包括失败)后才会将日志发送到远程存储。 换句话说,运...翻译 2018-11-29 13:39:16 · 41835 阅读 · 0 评论 -
Airflow 中文文档:用Celery扩大规模
CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,…)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。有关设置Celery代理的更多信息,请参阅有关该主题的详尽Celery文档 。以下是您的员工的一些必要要求:需要安装airflow,CLI需要在路径中...翻译 2018-11-29 13:40:52 · 38841 阅读 · 0 评论 -
Airflow 中文文档:用Dask扩展
DaskExecutor允许您在Dask分布式群集中运行Airflow任务。Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。要创建集群,首先启动调度程序: # default settings for a local clusterDASK_HOST = 127 .0.0.1DASK_PORT = 8786dask-scheduler...翻译 2018-11-29 13:41:53 · 37503 阅读 · 0 评论 -
Airflow 中文文档:使用Mesos扩展(社区贡献)
有两种方法可以将气流作为mesos框架运行:直接在mesos从站上运行气流任务,要求每个mesos从站安装和配置气流。在安装了气流的docker容器内运行气流任务,该容器在mesos slave上运行。任务直接在mesos从站上执行MesosExecutor允许您在Mesos群集上安排气流任务。 为此,您需要一个正在运行的mesos集群,并且必须执行以下步骤 -在将运行Web服务器...翻译 2018-11-29 13:43:29 · 38171 阅读 · 0 评论 -
Airflow 中文文档:使用systemd运行Airflow
Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设Airflow将在airflow:airflow下运行airflow:airflow 。 如果不是(或者...翻译 2018-11-29 13:44:30 · 40905 阅读 · 1 评论 -
Airflow 中文文档:用upstart运行Airflow
Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。您可以在scripts/upstart目录中找到示例新贵作业文件。 这些文件已在Ubuntu 14.04 LTS上测试过。 您可能需要调整start on和stop...翻译 2018-11-29 13:45:38 · 39103 阅读 · 0 评论 -
Airflow 中文文档:使用测试模式配置
Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急切加载测试配置,请在airflow.cfg中设置test_mode: [ tests ]unit_...翻译 2018-11-29 13:46:39 · 38364 阅读 · 0 评论 -
Airflow 中文文档:UI /截图
通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。DAGs查看您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。树视图跨越时间的DAG的树表示。 如果管道延迟,您可以快速查看不同步骤的位置并识别阻塞步骤。阅读全文/改进本文...翻译 2018-11-29 13:48:31 · 39041 阅读 · 0 评论 -
Airflow 中文文档:概念
Airflow Platform是用于描述,执行和监控工作流的工具。核心理念DAG的在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但C可以随时运行。 它可以说任务A在5分钟后超时,并且B可以重新启动最多5次以防它失败。 它也可能会说工...翻译 2018-11-29 13:49:52 · 39551 阅读 · 0 评论 -
Airflow 中文文档:数据分析
使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据。临时查询adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。图表基于flask-admin和highcharts构建的简单UI允许轻松构建数据可视化和图表。 使用标签,SQL,图表类型填写表...翻译 2018-11-29 13:51:04 · 39304 阅读 · 0 评论 -
Airflow 中文文档:命令行界面
Airflow具有非常丰富的命令行界面,允许在DAG上执行多种类型的操作,启动服务以及支持开发和测试。 usage : airflow [ - h ] { resetdb , render , variables , connections , create_user , pause , task_failed_deps , version , trigger_da...翻译 2018-11-29 17:57:32 · 38635 阅读 · 0 评论 -
Airflow 中文文档:调度和触发器
Airflow调度程序监视所有任务和所有DAG,并触发已满足其依赖关系的任务实例。 在幕后,它监视并与其可能包含的所有DAG对象的文件夹保持同步,并定期(每分钟左右)检查活动任务以查看是否可以触发它们。Airflow调度程序旨在作为Airflow生产环境中的持久服务运行。 要开始,您需要做的就是执行airflow scheduler 。 它将使用airflow.cfg指定的配置。请注意,如果您...翻译 2018-11-29 17:58:31 · 40112 阅读 · 0 评论 -
Airflow 中文文档:插件
Airflow内置了一个简单的插件管理器,可以通过简单地删除$AIRFLOW_HOME/plugins文件夹中的文件,将外部功能集成到其核心。plugins文件夹中的python模块将被导入, 钩子 , 操作符 , 传感器 , 宏 , 执行器和Web 视图将集成到Airflow的主要集合中,并可供使用。做什么的?Airflow提供了一个用于处理数据的通用工具箱。 不同的组织有不同的堆栈和不同...翻译 2018-11-29 17:59:25 · 38886 阅读 · 0 评论 -
Airflow 中文文档:安全
默认情况下,所有门都打开。 限制对Web应用程序的访问的一种简单方法是在网络级别或使用SSH隧道执行此操作。但是,可以通过使用其中一个提供的后端或创建自己的后端来打开身份验证。请务必查看Experimental Rest API以保护API。Web身份验证密码最简单的身份验证机制之一是要求用户在登录前指定密码。密码身份验证需要在需求文件中使用password子包。 密码哈希在存储密码之前...翻译 2018-11-29 18:00:29 · 39298 阅读 · 0 评论 -
Airflow 中文文档:时区
默认情况下启用对时区的支持。 Airflow在内部和数据库中以UTC格式存储日期时间信息。 它允许您使用时区相关的计划运行DAG。 目前,Airflow不会将其转换为用户界面中的最终用户时区。 它始终以UTC显示。 此外,操作符中使用的模板也不会被转换。 时区信息是暴露出来的,由DAG的作者负责。如果您的用户居住在多个时区,并且您希望根据每个用户的挂钟显示日期时间信息,这将非常方便。即使您只在...翻译 2018-11-29 18:01:36 · 40752 阅读 · 0 评论 -
Airflow 中文文档:实验性 Rest API
Airflow公开了一个实验性的Rest API。 它可以通过网络服务器获得。 端点可在/ api / experimental /获得。 请注意,我们希望端点定义发生变化。端点这是占位符,直到招摇定义处于活动状态/ api / experimental / dags / <DAG_ID> / tasks / <TASK_ID>返回任务信息(GET)。/ api ...翻译 2018-11-29 18:02:32 · 40749 阅读 · 0 评论 -
Airflow 中文文档翻译和改进活动 | ApacheCN
仓库:https://github.com/apachecn/airflow-doc-zh进度:https://github.com/apachecn/airflow-doc-zh/issues/1贡献指南:https://github.com/apachecn/airflow-doc-zh/blob/master/CONTRIBUTING.md期待大家的参与~...原创 2018-11-25 21:50:34 · 38980 阅读 · 0 评论