我如何作为数据工程师使用 Gen AI

原文:towardsdatascience.com/how-i-use-gen-ai-as-a-data-engineer-6a686a921c7b

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d13c048b9bc14280b1f5b5f5418dfcae.png

我使用 AI 的图片。图片由作者提供

引言

将生成式 AI 嵌入到数据工程工作流程和数据管道中实际上非常简单且令人满意。

作为软件和商业用户之间的桥梁,数据团队处于无可匹敌的位置,可以快速迭代具有重大业务影响的生成式 AI 用例。

具体来说,生成式 AI 可以用来总结大量结构化和非结构化信息,这既扩大了数据团队可用的数据范围,也增加了数据的深度。

然而 - 很容易对生成式 AI 以及它如何“酷”或“流行”着迷而不真正使用它来推动组织内的有影响力的增长。这就是为什么对于数据团队来说,拥有数据和分析产品的中央可见点是如此基本的原因。

在本文中,我们将讨论一些方法,您可以利用现有数据管道中的生成式 AI,以及如何量化结果。

特征工程

通过摄入大量非结构化数据,如通话笔记或支持票务请求,数据团队现在可以发起 API 调用并获取数据并进行清理。

这可以在数据摄入点或管道中间进行。例如,如果您正在使用开源连接器从Salesforce摄入数据,您可以通过“笔记”列迭代并调用 Open AI 来总结笔记。这是一种使用生成式 AI 进行特征工程的形式 - 请参见下面的非常基本的代码草图。

def fetch_data():
  retrun pd.DataFrame(['some_data'], columns=['notes'])

def make_call_to_open_ai(data):
    data['completed_notes'] = open_ai.make_request(data['notes'])
    return data

data = fetch_data()
feature_engineered_data = make_call_to_open_ai(data)

您也可以使用 Python 脚本作为数据转换过程中的中间步骤提交一系列值。

这将需要您协调 Python 作业,也许还需要数据转换作业(查询,使用 dbt 或 Coalesce),这很困难(除非当然您有一个能够处理编排的多功能平台)。

最后,许多云仓库也将生成式 AI 嵌入到他们的产品中。例如,在 Snowflake 中,Snowflake SQL 支持诸如SUMMARIZE()之类的函数,这些函数在幕后自动执行上述工作。

新数据源 - 非结构化数据

如果你能将 pdfs、文档和电子邮件安排在对象存储层,例如 S3,那么你现在就可以利用这些数据了。

例如,你可以使用数据摄取工具将电子邮件同步到 S3(就像你可能使用 Fivetran 从 Salesforce 获取数据到 Snowflake 一样)。然后你可以使用 Snowflake 的pdf 摘要工具来了解你收到的数据。

例如,假设你有一个存储在类似/contracts/region/format/name 的文件路径下的客户合同列表,你可以将此信息传递给Document AI,它允许它自动提取这些信息。

这对于客户合同和订单表的分析将非常强大。你可以轻松推断出如下架构

{
  "contract_type" : "annual",
  "products" :["Platform", "Dashboard"],
  "platform_fees" : ["$10,000", "$20,000"]
  ,...
}

这消除了在操作工具(如 Docusign 和 Salesforce)之间进行复杂集成的需求。在最理想的情况下,它为财务团队节省了数百小时的手动工作——这是一个即时可衡量的胜利(“这每周节省了我 10 小时 = 每周 500 美元 = 每年 25,000 美元”)。

这些代表数据的新来源,由于它们与其他数据管道的逻辑分离,因此很容易量化。当采用使用开源工作流程编排工具(open-source workflow orchestration tool)的单一方法进行监控时,这可能极具挑战性。

网络爬虫

团队可以使用OrchestraNimble等平台将互联网指定为数据源。是的——互联网。这是因为生成式 AI 在理解网页文件中的重要信息方面非常出色。记住——像 Selenium 和 Beautiful Soup 这样的工具分别成立于20062004

有一些公共网站允许你有效地将它们变成数据源,例如 Google。想象一下,如果你能够实时监控不同搜索词的提及频率,而无需支付 SemRush 并不断检查它,那会怎样。

其他应用可以是来自供应商网站的价格数据、天气数据或企业目录。只要你利用这些工具在其服务条款内(这一点非常重要),网络爬虫可以非常强大。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1ea3e0c8ca8e420a07438d07e4bba1ba.png

Nimble 的着陆页 – 当我了解到这一点时,我非常兴奋。作为一名数据工程师,谁不想能够将互联网作为数据源呢?

值得注意的是,由于网络爬取任务通常计算量低但运行时间长,因此不建议在昂贵的计算机集群上运行这些任务,例如用于部署开源工作流程编排工具的集群,因为这会不必要地增加成本。一个好的解决方案是使用编排层并将网络爬取脚本放入一个可以预先配置节点(如EC2)的集群中。

由于这些代表新的数据来源,因此监控成本和用量等特性是直接的,因为这些数据产品可以轻松地整合到单一数据管道和独立的数据工作流程中。

优化业务流程

能够有效地总结笔记以及结构化数据源的能力,为一系列操作数据管道开辟了新的可能性。

例如,你可以列出最近的活动,并使用这些活动作为 AI 代理的总体提示。然后,你可以迭代通过客户经理、业务发展代表或其他职能角色,并使用 AI 来总结他们应该做的事情的列表(附带指向相关资源的规范链接)。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c55bf7c613c513f27cb8675f2a9d761e.png

GPT-4 告诉我在 Orchestra 中如何处理我的用户注册 – 显然,你可以用更好的方式来提示。想象一下作者的画面

从大量结构化和非结构化数据中轻松提炼销售优先级本身是具有挑战性的。大型语言模型擅长分析非结构化数据并迅速加速洞察力。数据团队处于做这件事的理想位置。

此外,监控相对简单。通过触发一个大型语言模型并传递一系列值,数据团队可以触发用于操作目的的批量推理作业,并随着时间的推移监控服务的使用情况。

生成式人工智能倡议经常遇到怀疑,因此能够展示“数据产品”的使用至关重要。一个收集元数据并将其呈现给非技术性、业务利益相关者的层将非常重要。

摘要

在这篇简短的文章中,我们介绍了数据团队可以在其组织中快速测试数据和人工智能产品的四种方法:

  1. 特征工程

  2. 非结构化数据

  3. 网络爬取

  4. 优化业务流程

这些数据产品成功到什么程度将严重依赖于组织现有的流程。

如果业务利益相关者和数据团队之间没有现有关系,那么在组织中释放生成式人工智能不太可能奏效。数据团队需要成为内部倡导者、冠军,并且像初创公司向世界展示自己一样向业务的其他成员展示自己。

其他例子,如特征工程,可能影响非常小。在表格中增加一列,清晰简洁地总结所有其他列的内容,不太可能“推动指针”在任何方面。

用例(2)和(3)可能具有极大的影响力,但前提是存在与利益相关者的现有关系。如果财务团队对在 ERP 系统中输入合同价值感到满意,那么他们不太可能对自动完成这项工作的建议做出积极反应。首席财务官或财务总监可能会有不同的看法。

所有这一切的基础是数据团队和 C 级管理层之间的桥梁。数据和人工智能倡议代表了一种时间投资,这些时间本可以用于其他地方。

数据团队应确保他们使用的是一个能够从他们的数据和人工智能产品(如成本、使用情况和性能)中聚合元数据的平台,以促进与 C 级高管的讨论,让数据团队能够展示他们数据和人工智能产品的商业价值。

希望你喜欢这篇文章!如果你有任何关于数据团队如何利用生成式人工智能的其他想法,请在评论中告诉我们!💡

关于我

_ 我是 Hugo Lu – 我在伦敦从事并购工作开始了我的职业生涯,后来转到 JUUL,并陷入了数据工程。在短暂的回到金融领域后,我领导了位于伦敦的金融科技公司Codat的数据部门。我现在是Orchestra的 CEO,这是一个数据发布管道工具,帮助数据团队可靠且高效地将数据发布到生产环境中 🚀_

<think>嗯,用户这次的问题非常聚焦:如何生成SFT(监督微调)数据。从对话历史看,系统明确要求回答要遵循严格的学术格式,包括LaTeX公式规范和引用标注。用户提供的四个引用都是关于SFT数据构建的权威方法,需要整合这些资源给出专业解答。 用户可能是个NLP工程师或研究者,正在搭建垂直领域的语言模型。ta的深层需求应该是平衡数据质量与成本,尤其关注自动化生成方案。引用内容已经揭示了关键矛盾:人工标注精度高但昂贵,LLM生成效率高但需解决偏差问题。 梳理四个引用的核心信息:引用[1]对比了人工和LLM生成两种路径;引用[2]强调大规模自动化数据的价值;引用[3]指出提示工程是自动化生成的核心竞争力;引用[4]则暗示数据规模对模型效果的影响。看来需要重点展开自动化方案,特别是GPT-4这类LLM生成数据的实操细节。 回答框架应该覆盖三个维度:首先明确SFT数据的关键特征(指令-响应对),然后分述主流方法,最后提供优化建议。在技术细节处补充提示工程模板会很有帮助,比如引用[3]提到的迭代优化prompt的方法值得展开。安全方面要提醒数据去偏和伦理审核,毕竟引用[1]提到垂直领域需减少有偏数据。 相关问题的设计要引导用户深入:数据评估指标、垂类优化、开源工具链都是自然延伸。特别要强调引用[4]隐含的要点——数据规模与质量的平衡需要实证研究,这可能是用户下一步的痛点。 </think>根据引用内容及行业实践,生成SFT(监督微调)数据的方法可分为两大类,具体流程与注意事项如下: --- ### **一、主流生成方法** #### 1. **人工标注(引用[1])** - **适用场景**:垂直领域(如医疗、法律)、高准确性要求的场景 - **优点**:数据质量高、偏差小、符合领域术语规范 - **缺点**:时间成本高(单条数据需5-30分钟),标注人员需专业培训 - **典型流程**: ```mermaid graph LR A[定义任务目标] --> B[设计标注规范] B --> C[培训标注员] C --> D[标注数据] D --> E[质量审核] E --> F[迭代优化] ``` #### 2. **LLM自动化生成(引用[1][2][3])** - **核心工具**:GPT-4/Claude等大模型 - **优点**:分钟级生成百万级数据,成本低于人工的1/10 - **关键步骤**: 1. **Prompt设计**(引用[3]核心): - 指令模板:`作为{角色},请生成关于{主题}的{任务类型},要求包含{要素}` - 示例: > 作为金融分析师,生成关于股票估值的问答对,需包含PE比率计算和行业对比 2. **数据迭代优化**(引用[3]): - 第一轮:基础指令生成 - 第二轮:添加约束`避免出现数学错误,使用专业术语` - 第三轮:要求`增加反例和陷阱分析` 3. **质量过滤**: - 规则过滤:删除包含敏感词、逻辑矛盾的数据 - 模型过滤:用小型分类器判断数据可靠性 --- ### **二、关键技术方案** #### 1. **混合生成策略(引用[4]建议)** ```python def generate_sft_data(topic): if topic in ["医疗","法律"]: # 高风险领域 return human_annotation(topic) else: # 通用领域 return llm_generation(topic, prompt="生成20条问答,包含3种错误答案和解析") ``` #### 2. **数据进化框架(引用[3])** $$ \text{Quality}_{new} = \text{GPT-4}_{\text{eval}} \big( \text{Filter}_{\text{规则}} ( \text{GPT-4}_{\text{gen}} ( \mathcal{D}_{\text{seed}} ) ) \big) $$ 通过多轮筛选提升数据质量,每轮保留前30%优质数据作为下一轮生成种子 --- ### **三、关键注意事项** 1. **偏差控制**(引用[1][4]): - 添加多样性约束:`覆盖{不同难度}{多文化视角}{正反案例}` - 平衡正负样本比例(建议 7:3) 2. **垂类优化**(引用[3]): - 领域知识注入:将行业术语表作为prompt上下文 - 小样本引导:提供5-10条人工示例再生成 3. **效率工具**: - 开源方案:Self-Instruct框架[^2] - 商业工具:Scale AI、Snorkel AI > **实证研究提示**:引用[4]论文指出,当数据量超过50万条时,**质量比数量更重要**,最优数据量存在阈值效应[^4]。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值