AWS现在提供全托管的工作流程管理系统服务,让用户可以在AWS云端,用到开源版本的ApacheAirflow,建置工作流程以执行ETL(ExtractTransformLoad),和其他数据处理工作。
ApacheAirflow是一个让用户能以程序开发的方式,编写、排程和监控工作流程的工具,使用程序码来定义工作流程,以提高工作流程的可维护性、可测试性和协作性,甚至能用版本控制方法,来控制工作流程。用户可以使用ApacheAirflow,将工作流程编写成有向无环图(DAG),并以丰富的命令列工具操作有向无环图,还可透过用户接口,查看执行中的工作管线,在必要的时候进行故障排除。
虽然ApacheAirflow可以将复杂的工作管线,分解成一系列较小的任务来执行,以简化整个过程,但AWS提到,安装、维护和扩展Airflow需要花费不少时间与资源,而且处理安全性、身份验证和授权也并非简单的事,因此AWS提供MWAA服务,降低用户使用ApacheAirflow的障碍。
AWS举例ApacheAirflow创建工作流程的情况,工作管线的输入,可以来自AmazonAthena对对象储存S3的查询,接着在AmazonEMR丛集进行数据转换,最後利用处理过後的数据,在AmazonSageMaker上训练机器学习模型。而这个工作流程,用户可以使用程序语言Python,编写成有向无环图。
Airflow的主要优势,在於扩充套件的可扩展性,在AWS上,用户可以利用MWAA,创建需要使用AWS服务,或是本地端资源的工作管线,并且将Airflow指针发布为CloudWatch指针,传送到CloudWatch记录起来。默认情况下,AmazonMWAA会自动进行次要版本更新,并安装修补程序,用户可以设置这些更新程序执行的时间。
现在AmazonMWAA已经在许多AWS地区上线,包括美东、美西和欧洲,而亚太地区则有东京和悉尼。用户可以从AWS命令列工具、AWSSDK或是控制面板中,启用AmazonMWAA环境,并利用Python将Airflow生态系整合到工作流程中。
转载请注明:http://www.0431gb208.com/sjszjzl/7762.html