我如何作为数据工程师使用 Gen AI

原创于 2025-12-20 00:56:45 发布 · 472 阅读

7 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#人工智能

榛樿鍒嗙被专栏收录该内容

1065 篇文章

订阅专栏

原文：towardsdatascience.com/how-i-use-gen-ai-as-a-data-engineer-6a686a921c7b

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d13c048b9bc14280b1f5b5f5418dfcae.png

我使用 AI 的图片。图片由作者提供

引言

将生成式 AI 嵌入到数据工程工作流程和数据管道中实际上非常简单且令人满意。

作为软件和商业用户之间的桥梁，数据团队处于无可匹敌的位置，可以快速迭代具有重大业务影响的生成式 AI 用例。

具体来说，生成式 AI 可以用来总结大量结构化和非结构化信息，这既扩大了数据团队可用的数据范围，也增加了数据的深度。

然而 - 很容易对生成式 AI 以及它如何“酷”或“流行”着迷而不真正使用它来推动组织内的有影响力的增长。这就是为什么对于数据团队来说，拥有数据和分析产品的中央可见点是如此基本的原因。

在本文中，我们将讨论一些方法，您可以利用现有数据管道中的生成式 AI，以及如何量化结果。

特征工程

通过摄入大量非结构化数据，如通话笔记或支持票务请求，数据团队现在可以发起 API 调用并获取数据并进行清理。

这可以在数据摄入点或管道中间进行。例如，如果您正在使用开源连接器从Salesforce摄入数据，您可以通过“笔记”列迭代并调用 Open AI 来总结笔记。这是一种使用生成式 AI 进行特征工程的形式 - 请参见下面的非常基本的代码草图。

def fetch_data():
  retrun pd.DataFrame(['some_data'], columns=['notes'])

def make_call_to_open_ai(data):
    data['completed_notes'] = open_ai.make_request(data['notes'])
    return data

data = fetch_data()
feature_engineered_data = make_call_to_open_ai(data)

您也可以使用 Python 脚本作为数据转换过程中的中间步骤提交一系列值。

这将需要您协调 Python 作业，也许还需要数据转换作业（查询，使用 dbt 或 Coalesce），这很困难（除非当然您有一个能够处理编排的多功能平台）。

最后，许多云仓库也将生成式 AI 嵌入到他们的产品中。例如，在 Snowflake 中，Snowflake SQL 支持诸如SUMMARIZE()之类的函数，这些函数在幕后自动执行上述工作。

新数据源 - 非结构化数据

如果你能将 pdfs、文档和电子邮件安排在对象存储层，例如 S3，那么你现在就可以利用这些数据了。

例如，你可以使用数据摄取工具将电子邮件同步到 S3（就像你可能使用 Fivetran 从 Salesforce 获取数据到 Snowflake 一样）。然后你可以使用 Snowflake 的pdf 摘要工具来了解你收到的数据。

例如，假设你有一个存储在类似/contracts/region/format/name 的文件路径下的客户合同列表，你可以将此信息传递给Document AI，它允许它自动提取这些信息。

这对于客户合同和订单表的分析将非常强大。你可以轻松推断出如下架构

{
  "contract_type" : "annual",
  "products" :["Platform", "Dashboard"],
  "platform_fees" : ["$10,000", "$20,000"]
  ,...
}

这消除了在操作工具（如 Docusign 和 Salesforce）之间进行复杂集成的需求。在最理想的情况下，它为财务团队节省了数百小时的手动工作——这是一个即时可衡量的胜利（“这每周节省了我 10 小时 = 每周 500 美元 = 每年 25,000 美元”）。

这些代表数据的新来源，由于它们与其他数据管道的逻辑分离，因此很容易量化。当采用使用开源工作流程编排工具（open-source workflow orchestration tool）的单一方法进行监控时，这可能极具挑战性。

网络爬虫

团队可以使用Orchestra和Nimble等平台将互联网指定为数据源。是的——互联网。这是因为生成式 AI 在理解网页文件中的重要信息方面非常出色。记住——像 Selenium 和 Beautiful Soup 这样的工具分别成立于2006和2004。

有一些公共网站允许你有效地将它们变成数据源，例如 Google。想象一下，如果你能够实时监控不同搜索词的提及频率，而无需支付 SemRush 并不断检查它，那会怎样。

其他应用可以是来自供应商网站的价格数据、天气数据或企业目录。只要你利用这些工具在其服务条款内（这一点非常重要），网络爬虫可以非常强大。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1ea3e0c8ca8e420a07438d07e4bba1ba.png

Nimble 的着陆页 – 当我了解到这一点时，我非常兴奋。作为一名数据工程师，谁不想能够将互联网作为数据源呢？

值得注意的是，由于网络爬取任务通常计算量低但运行时间长，因此不建议在昂贵的计算机集群上运行这些任务，例如用于部署开源工作流程编排工具的集群，因为这会不必要地增加成本。一个好的解决方案是使用编排层并将网络爬取脚本放入一个可以预先配置节点（如EC2）的集群中。

由于这些代表新的数据来源，因此监控成本和用量等特性是直接的，因为这些数据产品可以轻松地整合到单一数据管道和独立的数据工作流程中。

优化业务流程

能够有效地总结笔记以及结构化数据源的能力，为一系列操作数据管道开辟了新的可能性。

例如，你可以列出最近的活动，并使用这些活动作为 AI 代理的总体提示。然后，你可以迭代通过客户经理、业务发展代表或其他职能角色，并使用 AI 来总结他们应该做的事情的列表（附带指向相关资源的规范链接）。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c55bf7c613c513f27cb8675f2a9d761e.png

GPT-4 告诉我在 Orchestra 中如何处理我的用户注册 – 显然，你可以用更好的方式来提示。想象一下作者的画面

从大量结构化和非结构化数据中轻松提炼销售优先级本身是具有挑战性的。大型语言模型擅长分析非结构化数据并迅速加速洞察力。数据团队处于做这件事的理想位置。

此外，监控相对简单。通过触发一个大型语言模型并传递一系列值，数据团队可以触发用于操作目的的批量推理作业，并随着时间的推移监控服务的使用情况。

生成式人工智能倡议经常遇到怀疑，因此能够展示“数据产品”的使用至关重要。一个收集元数据并将其呈现给非技术性、业务利益相关者的层将非常重要。

摘要

在这篇简短的文章中，我们介绍了数据团队可以在其组织中快速测试数据和人工智能产品的四种方法：

特征工程
非结构化数据
网络爬取
优化业务流程

这些数据产品成功到什么程度将严重依赖于组织现有的流程。

如果业务利益相关者和数据团队之间没有现有关系，那么在组织中释放生成式人工智能不太可能奏效。数据团队需要成为内部倡导者、冠军，并且像初创公司向世界展示自己一样向业务的其他成员展示自己。

其他例子，如特征工程，可能影响非常小。在表格中增加一列，清晰简洁地总结所有其他列的内容，不太可能“推动指针”在任何方面。

用例（2）和（3）可能具有极大的影响力，但前提是存在与利益相关者的现有关系。如果财务团队对在 ERP 系统中输入合同价值感到满意，那么他们不太可能对自动完成这项工作的建议做出积极反应。首席财务官或财务总监可能会有不同的看法。

所有这一切的基础是数据团队和 C 级管理层之间的桥梁。数据和人工智能倡议代表了一种时间投资，这些时间本可以用于其他地方。

数据团队应确保他们使用的是一个能够从他们的数据和人工智能产品（如成本、使用情况和性能）中聚合元数据的平台，以促进与 C 级高管的讨论，让数据团队能够展示他们数据和人工智能产品的商业价值。

希望你喜欢这篇文章！如果你有任何关于数据团队如何利用生成式人工智能的其他想法，请在评论中告诉我们！💡

关于我

_ 我是 Hugo Lu – 我在伦敦从事并购工作开始了我的职业生涯，后来转到 JUUL，并陷入了数据工程。在短暂的回到金融领域后，我领导了位于伦敦的金融科技公司Codat的数据部门。我现在是Orchestra的 CEO，这是一个数据发布管道工具，帮助数据团队可靠且高效地将数据发布到生产环境中 🚀_