互联互通社区,专注于IT互联网交流与学习,致力于打造最具价值的IT互联网智库中心。

梅宏院士“五问”大数据  

发布时间:2023-07-06 11:23:00.0
7月5日,中国科学院院士梅宏出席2023全球数字经济大会主论坛并发表主旨演讲。梅宏认为,数字经济时代正在开启,这是在农业经济、工业经济之后的一种新经济形态。数据技术体系、数字治理体系以及数据要素市场构成了数字经济发展的三大基石,数据成为生产要素将是这个时代的重要特征之一。


梅宏从五个方面提出了大数据技术发展面临的一系列挑战,从管理、处理、分析、治理四个维度分析了大数据技术未来发展趋势。

第一,如何构建以数据为中心的计算体系?梅宏表示,线性增长的数据处理能力与指数膨胀的数据处理需求存在剪刀差,迫切需要寻找新的性能提升驱动力,新硬件技术、人工智能技术为大数据计算体系带来新的机遇和挑战。同时,超大规模数据的能耗占比大、增速快,现有计算体系偏重性能,能效不高,可持续发展能力有限,带来了能效方面的挑战。

第二,如何管理超大规模的数据要素?在梅宏看来,越来越多的数据资源正以数据要素的形态独立存在于不同空间、组织和信任域,并参与数字经济活动的全过程,需要对大规模、跨域的数据进行高效的组织和管理。数据价值最大化要求数据组织管理的范围从传统的单域模式到跨域模式,带来跨域管理挑战。数据管理是大数据产业的基础,可用性也是一大挑战。大数据规模呈指数级高速增长,大数据管理系统往往规模极大,因此各类错误发生概率不断提升。另外,还可能存在恶意节点引发虚假消息或数据篡改等严重问题。

第三,如何满足大数据高效处理的需求?梅宏认为,新型数据处理需求对现有大数据处理系统与架构提出多种技术挑战。具体来看,实时数据的特征是动态倾斜、稀疏关联、超大容量,需要应对资源效率低、时空开销大、扩展困难等技术挑战;图数据的特征是不规则访问、计算访存比小、依赖关系复杂,需要应对并行流水效率低、访存局部性低、内外存通道利用率低等问题。

第四,如何实现多源异构大数据的多模态融合分析与可解释性分析?梅宏提出了两方面挑战:一方面,异构多模态数据的融合分析从小规模、单模态转变到大规模、多模态;另一方面,模型在可解释性、稳定性、公平性、可回溯性这四个方面也需要更高的性能和要求。

第五,如何形成系统化大数据治理框架与关键技术?梅宏指出,数据要素化需要有效高效的大数据治理技术体系支撑,涉及数据汇聚融合、质量保证、安全与隐私保护、开放流通、标准化与生态系统建设等多个方面。

关于大数据技术的未来发展趋势,梅宏认为,从总体来看,数据与应用将进一步分离,以促进数据要素化。尽管历史上数据库技术的出现带来了数据与应用的第一次分离,但这种分离仍不够,数据要作为资源和要素进一步独立于应用,真正成为一个独立存在的实体。高能效大数据技术栈的构成是可持续发展的关键,特别是在双碳背景之下,要形成低碳高效、可持续发展的路线。要在资源共享、节能高效的云数据中心基础上,布局全国一体化高能效大数据中心,形成低碳发展新格局。数据相关技术需要形成大数据标准规范,积极推进开源社区的建设。

在数据管理上,从单域到跨域的数据管理需要促进数据要素的共享与协同。数据管理正在从面向和限定于单域的孤立服务,发展到跨越空间域、信任域和管辖域的数据共享与协同服务的新阶段,要打破“数据孤岛”,促进数据价值的最大化。

在数据处理上,近数处理成为突破性能瓶颈的重要途径,包括存储上移、算力下移以及分布式计算模式转变;系统设计要从扩展性优先走向性能优先,需要拥有性能优先的系统设计、领域专用软硬件和新兴处理方法。

在数据分析上,从单域单模态分析到多域多模态融合,要实现广谱关联计算;从聚焦关联到探究因果,要实现分析结果可解释。

在数据治理上,数联网将成为数字化时代的新型信息基础设施,需要形成一套完整的数联网基础软件理论、系统软件架构、关键技术体系,以数据驱动为手段,研究数联网环境下保障服务质量与保护质量的原理、机制与方法。
推荐阅读