作 者: IBM 大中华区 云计算与认知软件事业部 数据与人工智能 信息架构产品总监, 王积杰
IT世界,每隔10年,就会出现一个IT的风口。20年前是数据仓库,10年前是大数据和数据湖,今天,一个名为Data Fabric 的数据架构浮出水面,开始引发人们的关注。
我们首先来看,当今的IT数据架构和十多年前有什么不同了。在数据仓库时代,企业的数据量还不算大,一般几十个TB, 数据仓库的建设一般采用中心化的方式,将各个应用系统的数据,从各个系统抽取出来,清洗转换后,加载到数据仓库里。由于架构相对简单,数据模型直观,相关的数据集成的工具软件及元数据管理的重要性并不突出,很多客户选择了忽视这一部分。而到了大数据时代,由于非结构化数据的导入,数据量大了,企业拥有上百个TB的数据成为了日常。但数据架构还是集中式,工具软件及元数据还是没有被广泛地应用。
今天已经到了一个云的时代。在企业内部,除了有各种本地应用系统,还有数据仓库(Data Warehouse)和很多数据集市(Data Mart),大数据平台( Big>
我们可以把Data Fabric 想象成一张虚拟的网,网上的每个节点就是一个 IT系统。人的大脑里有成万上亿个神经元,他们连接在一起,以非常快的速度处理和传递信息。现代医学还无法解释这些信息是如何传递的,只能说是以一种虚拟的方式来连接。这里Data Fabric 也一样,这张网并不能理解为一种点对点的连接,而是一种虚拟的连接,可以使数据在网上迅速流动。
要实现Data Fabric 这样的架构,有时候阻碍不是来自技术,而是人。很多时候,不同的业务部门把持着各自的数据,不愿共享,怕共享数据会降低本部门的权威。亚马逊的 CEO 贝索斯就曾经在一个内部的高层会议上,对一众高管发火,他说:“你们要么共享数据,要么离开公司!” 因为,贝索斯清楚地知道,发挥数据价值,给公司带来业务上的回报,是一家互联网公司的命脉。如果任由个别高管阻碍这种数据的共享,带来的后果将是毁灭性的。虽然有的人担心,数据共享会带来数据安全和隐私保护的问题,但这些问题都有相应的技术手段来解决,并不能成为阻碍数据共享的理由。
Data Fabric 可以同时给业务和技术团队带来明确的价值。从业务层面来看,由于企业能更容易地获得高质量的数据,从而能更快和更精确地获得企业数据洞察。数据科学家和业务人员能够花更多时间在数据分析上,而不是去寻找和准备数据,可以给数据使用者提供完美的自我服务的数据消费体验。优质和全面的数据,可以避免由于数据访问的限制而造成的数据分析偏差,从而可以提升企业数据的合规性和安全性。 从技术层面来说,由于较少的数据复制的次数和数量,从而减少了数据集成的工作,方便维护数据质量和标准,也减少了硬件架构和存储的开销。 由于减少了数据复制和大大优化了数据流程,加快并简化了数据处理过程,从而通过实施自动化的整体数据策略,减少了数据访问管理的工作。
要实现上述的Data Fabric 的目标,至少需要四个方面的基本能力:
Data Fabric 目前是一个IT热点,众多国际著名的 IT公司包括IBM、informatica和 Telend等,均推出了针对>
任何问题,欢迎拨打免费咨询热线:6690260 (工作日9:00-17:00)