2024515日举办的DataOps发展大会上,中国信息通信研究院云计算与大数据研究所大数据与智能化部副主任王妙琼对《面向人工智能的数据治理的实践指南(1.0)》(下称《指南》)进行深度解读。

 


面向人工智能的数据治理(DG4AI,Data Governance for Artificial Intelligence)是指在人工智能应用中管理和控制数据的过程与实践,以确保数据的质量、可靠性、安全性与合规性,使得数据能够被准确地用于训练和部署AI模型,同时保护数据的隐私和安全。

 

在以大模型为代表的强人工智能技术快速发展的背景下,《指南》以数据治理为抓手,通过对面向人工智能的数据治理产生的背景、遇到的挑战进行分析,创新性地提出了面向人工智能全生命周期的治理实践方法。《指南》的发布为人工智能场景中数据治理路径指明了方向,使数据治理的价值能够在时人工智能时代背景下最大化激活。

 

《指南》从“数据治理”的发展历程展开,点明当前大模型时代数据治理遇到的问题,后对于“面向人工智能的数据治理”概念进行定义,并从不同维度分析面向人工智能的数据治理与传统的数据治理的差异。

 

《指南》将人工智能数据治理阶段划分为“数据收集”、“数据预处理”、“模型推理”等9个阶段,提出治理对象包括“原始多模态数据集”、“标签数据集”、“训练数据集”等4类对象。而后明确每个阶段对应的治理目标与方法。

 

《指南》明确面向人工智能数据治理的三大主要工作,即“数据质量”、“数据安全与隐私”和“数据伦理”,并为企业提供“治理方法”及“技术手段”的实践指导。《指南》还梳理了企业在整个治理过程中应遵循的治理步骤,覆盖从“明确应用目标与需求”到“持续数据集运营与优化”的五个阶段,为企业实践提供方法论的指引。

 

结合当前人工智能产业的技术发展趋势,《指南》提出数据治理对企业竞争力提升的重要性。未来,随着技术的快速发展与实践的进一步落地,数据治理将推动人工智能应用的高质量发展,人工智能数据产业的分工也将更加明确。

 

据了解,《指南》将在2024年6月19日将于北京举办的“数据智能大会”上正式开放。(张九阳)

 

责任编辑: