Cloudera Navigator Data Management是一个完整的解决方案,用于与Hadoop平台完全集成的数据治理、审计和相关数据管理任务。Cloudera Navigator允许遵从性组、数据管理员、管理员和其他人员有效地处理大规模数据。
数据管理的挑战
随着Hadoop集群在大大小小的组织中变得无处不在,在任何规模上存储和分析所有类型数据的能力都带来了一些管理挑战,原因如下:
数据量非常大,并且还在继续增长,在包含各种数据类型的同时,速度也在增加。
集群在某个时间点接收的数据由许多不同的进程、用户或应用程序进行转换。其结果是,任何数据实体的来源最多都难以追踪。
多用户和多租户访问数据是一种规范。每个用户组可能需要不同级别的访问数据,访问的粒度也不同。
这些特点使得回答以下问题变得困难:
数据从何而来?它被改变了吗?如果被改变了,是谁改变的,或者是通过什么过程改变的?
下游流程是否使用这些数据?如果使用,如何使用?
是否有未经授权的人试图获取数据?我们可以验证所有访问和尝试访问我们的数据吗?
我们准备好审计了吗?例如,我们能否证明组织的G/L中显示的值没有被错误处理?银行审查员会批准我们的数据治理操作吗?一般来说,数据的有效性是否可信,并且更好地得到了证明?
是否满足数据保留要求?我们是否遵守所有保存及删除资料的业界及政府规例?我们能将数据的生命周期自动化吗?
最重要的数据在哪里?是否有一种方法可以根据数据类型查看不同时间段内的总体集群活动?
使组织能够快速回答诸如此类的问题,以及更多的问题,这是Cloudera Navigator的主要优点之一。
Cloudera Navigator数据管理功能
随着组织的集群消耗越来越多的数据,其业务用户希望能够自助访问这些数据。例如,业务用户可能希望通过使用其专业领域常见的命名法搜索与当前市场分析相关的数据,而不需要知道可能包含此类数据的所有文件类型。
与此同时,组织的安全团队希望了解访问任何和所有数据的所有尝试。他们希望能够快速识别机密数据,并跟踪任何数据实体到其源(出处)。法规遵循组希望随时准备好审计。组织范围内的每个人都希望完全信任他们正在使用的数据的完整性。
这些都是Cloudera Navigator数据管理设计用来正面应对的数据管理挑战。通过Cloudera Navigator数据管理提供的越来越多的特性,数据管理员、管理员、业务分析师、数据科学家和开发人员可以从Hadoop集群中存储的大量数据中获得更好的价值。
以下功能都可以通过 Cloudera Navigator console控制台获得:
分析
Cloudera Navigator分析系统利用元数据系统、策略和审计功能,为从数据管理员到管理员的大多数用户提供了一个起点。浏览跨不同维度的所有集群数据,并使用各种交互工具轻松筛选和深入到特定数据对象。例如,数据管理分析有一个仪表板和数据资源管理器,它为与系统中的所有数据交互提供了全面而直观的工具。HDFS分析页面显示HDFS文件(文件大小、块大小等等)的技术元数据的直方图。使用鼠标和画笔在任何直方图上显示较低层次的细节,以及选择器和其他过滤器,以便进一步挖掘数据对象的表面以下。
审计
除了满足数据管理员的需求,Cloudera Navigator还通过提供安全的实时审计来满足治理需求。Navigator审计服务器创建一个完整的、不可变的集群活动记录(在它自己的数据库中),在需要时很容易检索。遵从性组可以配置、收集和查看显示谁访问了数据、何时以及如何访问数据的审计事件。
元数据
分析、血统和Cloudera导航器依赖于元数据的搜索功能,这两个数据对象本身固有的技术元数据(日期、文件类型等)或元数据定义(管理和用户定义的属性)来描述数据对象数据管家,所以他们可以很容易地发现数据科学家,和其他业务用户。
例如,Navigator元数据服务器捕获关于表、文件和数据库活动的信息,包括文件和表的创建和修改趋势,所有这些信息都显示在数据管理仪表板上的可视化清晰呈现中。
政策
Cloudera Navigator策略允许您根据数据访问或计划自动化操作,以添加元数据、创建警报、移动数据或清除数据。
搜索
默认情况下,Cloudera Navigator控制台打开搜索菜单。使用这个复杂(但简单)的筛选方案来查找满足您的标准的所有类型的实体,然后深入研究特定实体的谱系。使用所提供的交互工具,可以进一步过滤高级图,让您以各种方式跟踪数据的上游或下游。