DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
前言
在测评DataWorks之前,对于非数据分析行业的技术从业者可能不太熟悉什么是DataWorks?那么这里先介绍一下什么是DataWorks。官方文档给出了一句话总结:【DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。】DataWorks的产品定位就是说:DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。
同时,DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块,为企业业务的数字化转型提供支持。
在简单介绍了DataWorks 之后,下面我们就要开始今天的正式内容,基于DataWorks和MaxCompute产品组合实现用户画像分析。
开通服务
在使用DataWorks和MaxCompute产品组合进行数仓开发之前,我们首先需要开通 DataWorks 服务。进入阿里云DataWorks官网,单击【立即购买】,即可进入DataWorks服务开通页

在购买详情页选择地域、DataWorks版本、购买时长,其他默认,点击【确认订单并支付】

此时如果提示 DataWorks资源组:请先创建服务关联角色

那么我们就先创建服务关联角色,点击【创建】按钮,系统会帮我们自动关联好角色,然后再次点击【确认订单并支付】可以看到资源校验信息,

点击【下一步:价格清单】可以看到具体的价格清单内容

继续点击【下一步:创建订单】等待大约30s左右,可以看到生成的订单详情,这里我是新账号,还没有购买过Dataworks 服务,因此这里是免费试用资格,价格 0元,点击【支付】完成Dataworks 服务开通。

在Dataworks 控制台点击【资源组】可以看到我们已经创建成功的 Dataworks资源组信息

资源组开通公网
这里由于DataWorks访问该原始测试数据并确保本次实验可顺利开展,您需要确保您的DataWorks资源组已具备公网访问能力。如果没有开通公网访问能力,在后面操作绑定MaxCompute数据源导入数据时会提示以下错误信息,因此这里要开通DataWorks资源组已具备公网访问能力

登录专有网络-公网NAT网关控制台,切换地域到北京地域,单击创建NAT网关,配置相关参数,选择所属地域,实例名称,其他的默认

继续选择访问模式、选择新购弹性公网IP,其他的默认

点击【立即购买】后确认公网NAT网关信息后点击【立即开通】

等待大约5分钟,完成DataWorks 资源组公网访问能力的开通

创建工作空间
工作空间是DataWorks中进行任务开发和成员权限管理、协同开发的基本单元,DataWorks所有开发工作都将在工作空间内进行。下面需要先创作我们后面将要用到的工作空间,点击Dataworks控制台【工作空间】-【创建工作空间】,输入工作空间名称,选择生产、开发环境隔离

选择我们刚才开通 Dataworks服务时默认创建的资源组,点击【创建工作空间】完成工作空间的创建

创建MaxCompute数据源
由于我们后续的操作需要用到MaxCompute数据源,因此在DataWorks工作空间内绑定MaxCompute数据源前,需创建MaxCompute项目。登录MaxCompute控制台,在左上角选择地域。点击【项目管理】-【新建项目】输入

最低0.47元/天 解锁文章
11万+

被折叠的 条评论
为什么被折叠?



