数据领域难题:大模型的切入点

本文回顾了个人经历中计算机的发展,探讨了大模型时代下人们如何利用AI技术,如GPT,进行数据分析、软件开发和用户界面的革新。文章重点分析了大数据领域面临的挑战,包括人力成本、数据隐私和精准应用,并提出在金融行业等场景中GPT的潜力和实际应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今年往昔

回想起90年代,老爸带回家的第一台电脑,当时我才小学四年级。起初,我们都对这台电脑的用途一知半解,仅仅是沉迷于DOS下的“tt”打字游戏,每天玩得不亦乐乎。

老爸使用电脑的频率并不高,甚至他用来做过什么我都没什么印象。至于编程,家里更是谁也不懂。我熟练打字之后,不知怎么滴就学会了DOS基本命令,然后开始尝试各种存放在3.5寸软盘上的小玩意,探寻有趣的内容。

但在那个时间点可以想到(或者看到)未来的那些人,现在都成就了什么?这里已无须赘述。

进入大模型时代,虽然许多人开始使用这些技术,但似乎还没完全明白如何充分利用它们,大多数也仅限于提高工作效率。

过去,编写软件是一门技艺,不是每个人都能掌握。如今,借助大模型,几乎人人都能开发软件。

用户界面(UI)的调整变得简单快捷。可以想象,所有的输入界面将被简洁的多模态输入(文本、语音、图像)所替代,而展示界面则变得高度定制化且可实时变更。

行业应用也经历了转变。以往需要复杂的交互才能完成的任务,现在仅需简单几轮对话即可。学习使用单一工具的成本大大降低,你甚至可以借助大模型与RPA相结合来快速掌握新工具。

虽然AI的准确性尚未达到让人类完全放心的程度,人类依旧是最终的决策者。但若有一天AI变得足够可靠了呢?通过前100乃至1000次的准确无误,难道不会让你有一次想要放手不管么?

而当想象到这样的未来,回到现实之后,我们应该做什么?


除了超级助理,还是什么?

GPT诞生一年以来,除了每天FOMO之外,思考最多的还是:“我到底想要用GPT来干嘛?”

或许可以从这样的角度入手:

  1. 个人专长关键词 → GPT总结分析你所擅长的领域
  2. 寻找命题 → 请列举诸如XXX领域鲜为人知的十大难题
  3. 分析难题 → 你是XXX专家,请分析XXX难题的实现路径,从两个维度进行分析,分别是AI的胜任程度以及解决难题所需的人力资源大小,并分别对两个维度进行打分
  4. 整理难题 → 循环1-3步分析完之后再与GPT进一步讨论可行思路

GPT给我的分析结果可归结为数据领域,应用设计及开发领域,编程教育领域,自媒体,行业及企业分析,管理。

我再问:干大数据的难题有哪些?

GPT回答:大数据处理与存储、数据质量与清洗、复杂数据集成、实时数据处理、高级分析算法的开发与优化、数据隐私与安全、数据可视化与解释、缺乏专业技能、算法的可解释性与透明度、业务与数据科学的对接。

其中大部分难题在于人力成本高,而非技术难。比如处理存储、质量清洗、集成、实时和分析优化这些,都需要将数据进行来回打磨,才能把链路优化得足够好。私隐和可解释性这两个属于新型领域,还不太成熟。可视化的难题更多是缺乏创意。最后,剩下业务与数据对接,更多应归为项目管理难题,而非技术难题。

大模型时代,个人对于获取并存储会有越来越大的需求量,因此需要更好用的个人大数据平台,或是一个小型、单体的本地系统。设想个人大数据平台需要支持什么?你会想要存储哪些数据用于训练你的私家大模型?

如果按照传统大数据平台架构,可能需要类似HDFS这样的分布式文件系统(搭配上Hive),还要支持全文检索es,用图数据库来建立各种关系,配上Spark计算引擎来运行各种脚本,又因不同的数据库,擅长处理不一样的数据结构,所以可能还需要Hbase、MongoDB、PostgreSQL……等等。,你因此需要花费大量时间精力让这些五花八门的数据库协同工作。

然而,站在个人日常使用需求来说,你的输入大多数是文字、图片、音频、视频时,或许应该考虑利用向量数据库来一统江湖。


大数据如何服务于个人

我一直怀疑,大数据所延伸出来的各种推荐服务是否真正地惠及个人。虽说按照科斯定律,数据似乎总是为能产生最大利益的一方服务,而不是普通个体,但这也同时导致了数据最终服务的也是最大利益体。因此在大数据领域,GPT的回答往往假定为企业(B端)场景。当你设想已有某个行业或领域中的数据,业务指标,乃至针对指标的各种算法和计算结果。那么AI,尤其是大模型,主要在解读这些分析结果上发挥作用。比如你可以通过获取公开数据,并分析不同行业的数据可用性和发展前景。然后,从数据科学的角度,收集成熟的算法,将它们整合成算子平台,方便快速得出计算结果。最终,利用大模型提供解读。

做数据的难点一直是只能为某行业或者某业务赋能,但作为”乙方“的服务是否能卖出去,关键因素通常不在于技术。因此还需要找到相对不那么依赖“赋能”服务的应用。相比之下,个性化推荐厉害之处在于构建了一个场,让所有人在其中交互,场主制定了场内的游戏规则,比如内容平台、社交平台和电商平台。然而这都已被各大厂占领,破局点可不在同场竞技。关键是“细分”以及“场景”,细分意味着你对某个业务领域有非常细致而又独特的理解,场景意味着你不但细致,还能从中跳出来看到bigger picture,设想出未来的交互,而不是只管解决现在遇到的痛点。

真正的难题在于什么?是那些原本无法降下来的成本,现在借助AI有了可以快速打通的场景。

比如大数据选址产品,数据成本,算法成本高居不下。花费一两百万购买的产品,实际能辅助决策的点少之又少,甚至可能比传统人力省不了几个钱。所谓的科技赋能实际上没有实际作用,而只能达成当前预算执行目标。

说白了,B端真正的难题在于,数字化/信息化的大目标总是绕不开降本增效,那首当其冲的就必然是削减人力,用更少的资源做更多的事,进而从人力花费最多的地方着手。但进入大模型时代之后,这一切前提都将推倒重来,或许我们可以找到既不需要削减人力,同时又能产生新价值的办法。


GPT该如何助力数据领域?

此前某公众号发布了一份《全行业数据指标系统手册》并且只卖不送,号称:“涉及15个行业,24个场景,1000多个指标,内容之详细,质量之高,独属此一份。”,但从其宣传手法上看来,免费的肯定是最贵的,这未必是一份很有指导意义的手册,还不如设计prompting套用相同的框架来给你生成一份专属于你行业的指标体系手册。

为什么各行各业都需要指标体系?

指标体系是理解和评估业务表现的关键。它们帮助企业监控进展,识别改进领域,以及做出基于数据的决策。在GPT的帮助下,我们可以更迅速地定义这些指标,使其更加贴合行业特点和企业需求。

从GPT赋能百行百业的角度来看,除了指标体系制定,切入点还有哪些?

如前文说到的“数据的有效解读和应用”也算一个:这涉及到利用GPT对海量数据进行分析,提炼出有价值的信息,并将这些信息转化为可操作的洞察。

因此在工具侧,GPT最先介入的应是:

  1. 梳理百行百业指标体系(乃至挖掘出新的指标)
  2. 面向不同人群进行数据解读(EDA结果、分析结果、图形结果……)
  3. 加速Data Team的工作(本体建模、生成逻辑/物理模型、编写其他数据脚本……)

但是要注意,数据这一行本就从数字化而来,其数字化/智能化程度相对较高,也就意味着提升空间较有限,提升难度也略大。这也是为什么在这段时间以来,总是看到很多“看起来很牛”的应用,但实际上手又觉得“不过如此”。

所以,我们要以数据+X为基础,往上多找一个AI+X。在AI对X进行改造的同时,利用数据为其作出更多价值。因此,数据工具的进化依然非常必要。


相对来说,金融还是比较切入,一方面更容易获取到大量数据包括交易数据、各种报告、研报、市场声量这些都是公开数据;另一方面加上数据之后,AI与金融方面的结合度相对更高,再之上要解决的是偏向精度问题。最后就是考虑这是否一个3人以下小团队可干的事情,感觉金融相对我现在搞的这类大数据平台这些而言,没有那么依赖一定要给XX客户、XX业主服务。因为做乙方服务的成功关键因素压根不在于技术行不行。

这是一个项目计划书。计划先跑通单支股票的深度研报分析,再将工作流延伸到对应的行业个股之上,可以复用之前的行业分析内容。所以最优先的还是根据金融市场信息去整理有关某一特定行业的分析报告。股票分析着重突出可通过技术面对个股走势进行分析,时间点需与信息时间对应上。通过GPT拓展这份计划书并一层层拆解做出来 #GPT

这是一个项目计划书,计划做一个元数据采集以及探索性分析为一体的工具,第一期先以实现cli为主要方式,单个数据库的Ingest可以整合为这样的过程:通过JDBC连接对应数据库,假设是postgres,然后将其元数据提取出来,并且使用GPT将数据字典补充完整。判断出该数据库所面向的领域之后,可以生成对应本体模型,并将本体模型与已知本体进行比较,使用GPT进行本体以及数据模型的修改建议。通过SQL对数据库进行值域分析,结合之前生产出来的数字字典对源数据进行分析,并通过GPT产出一份完整的数据源分析报告,并推荐出一些相关的指标应用建议。#GPT

结合更多感兴趣行业的探索,并让GPT整理成表格形式:

业务领域赋能技术方面细分难题AI胜任程度人力资源需求
金融业务与数据科学对接高精度风险评估和欺诈检测94
零售用户体验的个性化和优化、推荐系统客户行为预测和个性化营销85
自媒体内容创作自动化创造引人入胜且原创的内容,爆款创作66
企业策略与分析信息归集与分析准确预测市场趋势和制定长期策略84
教育与培训AI助教个性化学习路径的设计和实施86

从上得出的结论,结合度高且人力资源需求少的是金融行业,当然细节难题未必是这一个,这都是需要有实战经验的人才能分析得出来到底什么才是真正的难题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingCai85

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值