大数据策展:现状、挑战与未来趋势
1. 大数据策展的关键要素
1.1 人机数据交互
人机数据交互的改进对数据策展至关重要。它能提高策展效率,降低领域专家和普通用户进行数据策展的门槛。关键功能包括自然语言接口、语义搜索、数据总结与可视化,以及直观的数据转换接口。
1.2 数据级信任和权限管理
数据级信任和权限管理机制是支持数据策展的数据管理基础设施的基础。出处管理是数据策展信任的关键推动者,能让策展人选择值得信赖的数据,并记录策展决策。同时,数据策展还依赖于在数据级分配权限和数字权利的机制。
1.3 数据和概念模型标准
数据和概念模型标准能显著减少数据策展的工作量。基于标准的数据表示可减少语法和语义的异质性,提高互操作性。不同领域都有数据模型和概念模型标准,但采用率仍在增长。
1.4 理论模型和方法论
需要改进数据策展活动的理论模型和方法论,应专注于支持生成数据在不同环境下的可移植性,便于检测数据质量问题,提高数据策展工作流程的自动化程度。
1.5 算法和人类计算方法的集成
需要更好地集成算法和人类计算方法。自然语言处理(NLP)和机器学习(ML)等领域的数据驱动统计技术日益成熟,其应用从学术环境转向工业环境。许多NLP和ML工具的结果存在不确定性,且依赖大量数据集进行训练。因此,统计方法与人类计算平台的更好集成至关重要,既能通过提供额外训练数据使统计模型不断发展,又能减少结果误差的影响。
2. 大数据策展的新兴需求
2.1 数据复用与质量问题
许多大数据场
大数据策展的现状与趋势
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



