大数据治理中如何搭建大数据探索平台

技术大数据治理中如何搭建大数据探索平台这篇文章给大家介绍大数据治理中如何搭建大数据探索平台,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着

本文向您介绍如何在大数据治理中构建大数据探索平台。内容非常详细,有兴趣的朋友可以参考一下,希望对你有帮助。

在数据治理中,数据探索服务的价值在初期往往被忽视,但随着业务和分析师的增加,数据探索服务的价值会越来越大。

一个成功的数据管理平台不仅提供各种数据分析工具和数据源,还提供数据探索的能力。

为什么数据探索服务很重要?

想象一下,作为一名数据科学家,他刚刚被赋予了一项新的任务,那就是建立一个机器学习模型来分析业务问题。处理数据的人的第一本能是找到任何有意义的信息,帮助他们的分析过程。在此过程中,通常会出现以下问题:

我可以/应该使用什么样的数据?

在哪里可以找到数据?

我应该向谁申请数据访问权?

我能相信我们掌握的数据吗?

我们拥有的数据的实时性和质量如何?

还有谁在使用这些数据?

没有数据探索服务的世界

数据科学家将花费多达三分之一的时间在数据探索上。

如果没有数据探索服务,数据科学家需要与同事沟通,浏览他们可以访问的对象进行搜索。然后做一些假设,验证自己的选择是否正确。

这个过程其实非常耗时,因为没有合适的工具来帮助。我们必须不断寻找可靠的数据。然而,随着数据量、数据平台用户和数据分析需求的增加,元数据的量也在增加。这个过程给搜索过程带来了巨大的挑战。

科学家用来寻找与其需求相关的数据的方式可能会很快适得其反,变得不可靠,从而导致很多挫败感、不确定性和创造力下降。

这些问题的解决方案是数据探索服务。

数据探索服务

数据探索服务是指为用户提供一个了解平台内数据及其质量的工具。让我们看看具体的实现。

Amundsen

Lyft是一款总部位于美国的出租车应用,拥有包括Amundsen在内的大量开源技术框架。这是一个以伟大的挪威探险家命名的数据探索服务。Lyft的数据探索服务旨在解决在元数据中搜索有价值信息的问题。提供用户数据探索服务的搜索界面。

阿蒙森的社区非常繁荣,并在不断更新和完善。

Apache Atlas

作为元数据管理的领导者,地图集无疑是最好的选择之一。

元数据听起来很容易解释,用于描述数据信息的数据。最简单的例子是,数据存在于表中,与表相关的信息,如表名,就是元数据。没有元数据的支持,数据探索服务将不复存在。

Atlas作为一个大数据元数据管理平台,可以捕捉平台上各个组件的元数据信息。例如,称为hooks的元数据可以从Kafka、Hive和Hbase收集。具有安全性和丰富的Rest Api。

Atlas依靠Hbase和Solr作为分布式数据存储,从而实现元数据的存储和搜索功能。这样,就可以建立一个全面的元数据目录。

大数据治理中如何搭建大数据探索平台

阿帕奇阿特拉斯建筑

在实际应用中,通过两者的结合,完全可以满足我们的需求。

大数据治理中如何搭建大数据探索平台

这样,数据科学家就可以在阿蒙森找到目标数据。

但是搜索显然只是第一步。找到搜索结果后,您可以进入表格详细信息页面。

您可以查看描述、更新时间和常用用户等信息。并且实时更新元数据信息。

大数据治理中如何搭建大数据探索平台

以下是如何在大数据治理中搭建大数据探索平台。希望

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/142177.html

(0)

相关推荐

  • python二叉树遍历教程(二叉树python修改指定结点算法)

    技术怎么返回python二叉树的中序遍历今天就跟大家聊聊有关怎么返回python二叉树的中序遍历,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.给定一个二叉树,

    攻略 2021年12月13日
  • HIVE如何统计每个地区最热门的TOP3产品?

    技术HIVE如何统计各个区域下最热门的TOP3的商品小编给大家分享一下HIVE如何统计各个区域下最热门的TOP3的商品,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!环境: hadoop-2

    攻略 2021年12月16日
  • git版本控制gitosis的安装与使用是怎样的

    技术git版本控制gitosis的安装与使用是怎样的git版本控制gitosis的安装与使用是怎样的,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所

    攻略 2021年11月10日
  • leetcode有效三角形个数(leetcode四个数之和图解)

    技术LeetCode如何解决三数之和问题这篇文章主要介绍LeetCode如何解决三数之和问题,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1 题目描述给定一个整数数组nums,判断nums中是否存

    攻略 2021年12月15日
  • Hadoop HDFS分布式文件系统怎么理解

    技术Hadoop HDFS分布式文件系统怎么理解本篇内容介绍了“Hadoop HDFS分布式文件系统怎么理解”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧

    攻略 2021年12月9日
  • MSSQL内存架构及管理是怎样的

    技术MSSQL内存架构及管理是怎样的本篇文章给大家分享的是有关MSSQL内存架构及管理是怎样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1. MSSQ

    攻略 2021年11月29日