导读
近日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行,吸引了数百位业界精英的参与。
本次论坛以“小趋势·大未来”为主题,围绕大数据产业的各个领域进行分享。矩阵起源创始人及 CEO 王龙,受邀参与“大数据 + 大模型,挖掘数据智能‘金矿’”圆桌论坛,与另外四位嘉宾一同深入探讨了 4 个问题,本文整理了王龙的分享内容,他就数据集质量、大模型对大数据产业的影响、2024年大模型应用爆点以及大模型与大数据融合面临的问题和挑战进行了盘点与分析。
Q1 数据集的质量和规模如何影响大模型性能?如果要构建良好的行业大模型,对于数据集会有什么要求?
大模型是用户可以采集到的所有训练数据集的一张缩略图。数据集的内容和质量对于大模型的训练质量会有根本性影响。另一方面,在例如金融、证券、能源和制造等很多传统行业落地时,大模型生成的内容需要是精准而实时的。在这些行业,如何和知识图谱、训练数据、结构化数据结合,避免大模型出现幻觉与错误是至关重要的问题。大模型需要和外部大数据结合,形成链路闭环,这样才既能在平时“一本正经的胡说八道”,又能够在需要时给出实时和精准的信息。
Q2 大模型对大数据产业和大数据的各个环节有新的影响?