数据目录管理系统应该具备以下的能力。
图1数据目录系统功能图
1数据的连接和发现能力做大数据分析和AI首先需要清晰地知道我们有哪些数据,通过人工梳理的方式显然已经跟不上数据增长和变化的速度。所以,一个数据目录最基础的能力就是可以连接我们拥有的多种数据源(如HDFS、MySQL、HBase、ORACLE等),并且可以定时地监测新生成的数据,在数据目录中根据规则自动注册为数据集或更新数据集状态(如关系型数据库新产生的表可注册为数据集,HDFS分区格式数据只更新当前数据集的容量大小,等等,一般需要人工辅助审核和修改)。
2元数据管理能力
元数据管理能力包括以下三个方面。
·数据集基本信息:包括数据集的名称、标签(业务分类)、负责人以及存储详情的变动趋势。
·字段描述信息:字段的数据类型、字段的业务类型、字段的描述信息、整个Schema的版本控制。
·数据规格:数据资产部门或者数据负责人维护数据说明的页面,包括数据的生成方式、使用范围、注意事项等。提供数据规格的编写能力,方便版本控制,用户可以按照时间线来查询数据规格。
3检索筛选和用户自组织能力
·检索筛选能力:如果数据目录没有强大的检索能力,系统中数据集的信息和沉淀的相关知识就不能实现其价值,也不能促进系统的良性循环。检索和筛选的内容包括数据集名称、标签、描述、字段相关信息、数据内容、数据规格详情等。
·用户自组织数据集的能力:不同用户使用数据集的场景不一样,所以组织方式也会不一样。每个用户可以按照自己的理解和需求组织自己的数据目录,方便用户的使用。同时,不同用户根据不同场景对数据集的组织方式也是一种知识,可以沉淀。
4安全和共享能力
·权限和审计:为数据集的访问提供权限控制。主要体现在数据集的访问申请和审批上。想要使用数据集的用户可以在系统中申请,访问申请会自动转向数据集所有者(负责人),数据集所有者需要在系统中答复。所有申请和审批都以时间线的方式组织,方便审计人员查阅和检索。所有用户对数据集的操作都需要做记录。
·共享能力:数据集及相关信息分享给使用者,使用者可以看到数据集的元数据等详情。
·开放能力:数据目录应该提供数据集的访问接口,可以支持内部数据探索工具、数据ETL工具的调用,可以支持外部客户的调用和加工。
预览时标签不可点收录于话题#个上一篇下一篇