据《经济学人》报道,数据已经超过石油成为世界上最有价值的经济体。而且,就像石油在上个世纪所呈现给我们的一样,数据,已经开始在改变这个世界。时代正在目睹“数据经济”的崛起。然而,数据并不像石油那样,是一种产量与元素皆有限的物质。
首先,如今的数据几乎全部是由机器创建的,因为人力是不可能以那么快的速度创建如此大容量数据。研究仪器、设计模拟器、传感器和成像装置,以及其他类型的机器可以持续生成PB级,甚至EB级的数据,产生这些数据的组织,可被称为数据经济型企业。
其次,大部分的数据都是非结构化数据。与那些大型数据库中整齐的、有序的、有规律的数据不同,非结构化的数据代表着数以十亿计的文件,其中绝大部分,都存于内部部署的NAS系统中,作为“数据经济”体中的重要部分,如何对其进行有效的管理,是一个棘手的课题。
数据经济的规模
关于数据经济,首先要了解的是企业积累的海量数据。根据Igneous,Inc.的调查,60%的受访者声称他们目前管理着超过10亿个文件。该群体中前10%的受访者表示管理着至少亿个文件,其中包含至少83PB的数据。
非结构化数据带来的挑战
大多数的(70%)问卷结果显示,管理非结构化数据是异常困难的。
究其原因,首先,在不同的云平台或者预置软件层之间、甚至是不同的预置软件层与云平台之间移动文件是一项十分复杂的工作。
其次,如何对数以十亿计的文件进行可视化的处理,尤其是非结构化数据;有企业表示,他们管理的三分之一的数据几乎没有价值。这就引申出了一个显而易见的疑问,为什么他们不删除(或至少将其存档至冷存储中)这些数据呢?
答案有两个,其一,大多数企业还无法对非结构化数据进行可视化处理,结果导致了企业无法识别,甚至都不能确定哪些数据是价值不高的数据。其二,大多数企业在移动非结构化数据时遇到了种种困难,如果平滑移动数据都难以实现,那备份或归档工作更是无从谈起。
事实上,有一半的受访者甚至没有将非结构化数据备份或存档至云端的打算。因为此项工作将耗费的时间太长,且涉及到数据安全、及成本高企等问题,总体来说就是,效率太低,难以实现。
如何更好地去掌控非结构化数据
1.可视化
企业IT系统需要及时、准确的信息,来针对非结构化数据制定相应的管理策略。而数据可视化,能帮助决定哪些文件可以删除,哪些文件需要移动到次级服务器,哪些文件可归于冷存储。
现在的问题是,在面对海量的非结构性数据,传统的硬件设备已经开始显得力有不逮,通常需要数周甚至几个月的时间来提供关于整体数据存储的相关信息,这个时间跨度意味着,当时的信息在当前已经不一定准确了。企业需要包含以下属性的可视化解决方案:
规模:许多传统的解决方案根本无法应对10亿数量级的文件量的。而你需要一个能在数小时、数天的周期内,(而不是数周或数月内)即可扫描数十亿文件的解决方案。
范围:大部分企业都拥有一个混合的存储系统,内置软件、云端、不同的文件系统、NAS——分布在不同地方。理想的解决方案,必须对所有数据都可以做到完全可视化,无论数据被存储在何处。
XX即服务:不增加当前的工作量——使用者不希望再将管理此类解决方案的工作,额外加到自己的任务列表中,XX即服务(无论是软件即服务还是存储即服务等等)的解决方案都必须是省时省力的。
2.数据移动
一旦解决了数据的可视化问题,你就可以开始处理数据了。但是处理数据就意味着数据移动。再一次,大多数传统的解决方案,是无法满足数十亿文件数量、PB级非结构化数据的迁移要求的。
为了能够快速、高效(且划算)地移动您的非结构化数据,您需要解决以下几个问题:
规模:同样,您需要一个能够处理数十亿个文件、PB量级数据的解决方案。它需要传输的数据,将非常接近网络带宽的理论极限——这是传统解决方案永远无法实现的。此外,它还需要拥有高效的横向扩展能力,以便在高峰期间进行负载迁移。
延迟感知:规模很重要,但规模的扩大不能建立在网络响应时间延长的基础上。使用者需要一个可以实时监控整个网络延迟情况,并能在数据移动的操作影响到终端用户体验时,可以及时退出的解决方案。
云端适配:如今,在云端存储数据的成本非常低,但是将数据从云端迁出、迁入是非常麻烦的。如果处理不当,在云端进行数据迁移的成本会远远高于云端数据存储的成本。确保您选择的解决方案可实现云端适配机制,并能将云端的数据迁移费用降到最低。
昆腾StorNext,采用明确定义的性能特征,将软件封装到模块化设备中,让系统变得更容易部署和维护。跟将系统完全集成到开源软件组件上的时间相比,利用StorNext,从设计到部署、使用的时间要短得多。并且StorNext架构是开放的,具有高度可定制化。
StorNext拥有两个主要部分,即StorNext文件系统(SNFS)和StorNext存储管理器(SNSM)。SNFS是一种高性能的异构共享文件系统。该文件系统可以通过多种方式进行访问,包括通过NAS协议(SMB和NFS)、S3样式的对象接口、HadoopHDFS连接器,或针对最高性能的专用LAN和SAN客户端。SNSM是一种策略和分层引擎,通过它可清楚地将文件系统扩展到其他存储层,如磁带、对象存储或云存储,与此同时,可管理容量、数据保护、归档、版本控制、迁移、复制和相关任务。从应用程序和用户角度来看,所有这些功能都是自动的,通过后台运行的。
StorNext所具有的独特功能组合非常适合于非结构化数据的管理环境,且能满足上文所列要求:
大规模。StorNext文件系统上已经部署了超过PB容量的空间,可存储5亿个文件,并且具有18EB容量和至少14亿个文件的限制单一文件系统。很明显,StorNext文件系统的规模实际上几乎没有限制。为实现这一点,SNFS使用的是被称为“条带化”的结构,并且具有跨多个存储层扩展文件系统的功能。
高性能。20年前,StorNext文件系统就被设计用于处理数字视频,这在当时是一项全新而艰巨的计算任务。SNFS的设计宗旨是“不干涉”,使其得以从存储硬件中发掘出尽可能快的速度。因此,即使存储硬盘在性能方面实现了数量级提升,StorNext还是能够在不改变基本体系结构的情况下,实现容量和性能的增长。如今,StorNext的每个客户端的性能是所有文件系统中最高的,达到了17GB/s。这种高性能的实现,得益于文件系统设计的多个方面。
支持共享存取。StorNext支持的数据共享方式有多种,从通过NAS设备协同作业的同时到通过Infiniband并行访问数据的Linux集群节点,StorNext通过多种架构特性实现了多种类型的共享。
支持存储分层。能够在一定范围的成本和性能损耗上——清楚地——合并不同类型的存储设备是StorNext在非结构化数据管理环境中的关键价值。由于非结构化数据管理项目产生和使用的数据量巨大,合并使用不同类型的存储设备不仅仅是每年节省几美元的事情。通常,这是能够保存数据,和丢弃数据以便为另一数据集保留存储空间之间的差异。SNSM可驱动所有策略操作,包括管理磁盘缓存和分层。基于目录的策略配置,应用到文件系统中的文件可以立即拥有创建到不同存储层上的多个副本。
未来灵活性。在传统IT环境中,通常每三年时间就会通过所谓的“叉车升级”模式更换一次数据存储硬件,或者频率更高一些,如果现有存储空间出现容量不足的情况,对于非结构化数据管理环境常见的大型数据集,该模式就显得不太适用了。StorNext能够使得扩展系统上任何存储层的容量成为一种可能。存储需求总是随着时间而变化,新项目会以新的方式利用存储。StorNext的策略是精细且灵活的,会始终对其进行调整和演化,而不是任由其变得过时。由于采用了集群设计,即使是MDC(系统的核心),也可以在零停机情况下对其使用的存储硬件进行更换。
转载请注明:http://www.0431gb208.com/sjslczl/2139.html