加入收藏 | 设为首页 | 会员中心 | 我要投稿 52站长网 (https://www.52zhanzhang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

数据湖里没有“水怪”,有的是,,,

发布时间:2019-09-18 21:21:42 所属栏目:教程 来源:大喵
导读:一般情况下,要使大数据项目成功,至少需要两件事:其一,知道需要什么可操作的数据;其二,获得正确的数据来进行分析和利用,以实现预期目标。 然而,有很多不同形式的数据有着形色各异的来源,并且,这种数据量,或者多样性等会随着时间的推移而呈指数型
副标题[/!--empirenews.page--]

一般情况下,要使大数据项目成功,至少需要两件事:其一,知道需要什么可操作的数据;其二,获得正确的数据来进行分析和利用,以实现预期目标。

数据湖里没有“水怪”,有的是,,,

然而,有很多不同形式的数据有着形色各异的来源,并且,这种数据量,或者多样性等会随着时间的推移而呈指数型增长。

数据湖是在快速增长和日益非结构化的大数据领域中结束数据孤岛的一种方式。

在未来几年,工业物联网将快速增长。这种增长,会出现更多或更优质的数据:数据在整个物联网体系中的有着举足轻重的地位,其作用是获得更精确的洞察力,推动相关行动和运营,以达成期望目标。为了进行有目的大数据分析,为智能应用程序提供智能数据,也就意味着不可避免地需使用人工智能来分析所有这些数据。

数据湖是将所有不同种类数据收集、存储、分析并转化为洞察力和决策的地方,包括结构化、半结构化和非结构化数据。

传统上,数据存储于整个组织(内部数据)及其运作的生态系统(外部数据)中。这是一个挑战:如果数据在云内云外无处不在,那就不能将有效的数据组合在一个大数据项目中。

作为一个概念,数据湖是由Pentaho的首席技术官James Dixon推广的,并将其视为是比数据集或数据中心更适合于大数据的存储库。

以下是Dixon于2011年在博客上对数据湖的定义:“如果将数据中心视为商店的经过清洁、包装和结构化的瓶装水,那数据湖便是一个更自然的大水体。数据湖中的内容从源头流入湖中,用户可以在湖中进行检查、潜水或采集样本“。

数据湖是具有分析和行动目的存储库。

在本质上,大数据湖是一个存储库,包含大量原始的、原生格式的数据。

传统的数据管理方法不适合处理大数据或进行大数据分析。通过大数据分析,可找到不同数据集之间的关联,这些数据集需要合并才能实现我们的业务目标。如果这些数据集位于完全不同的系统中,那几乎是不可能实现的。

比如,我们可以将来自一个来源的客户数据与其他来源的数据,甚至似乎不相关的数据结合起来(例如,交通数据、天气数据等似乎与我们的业务无关的客户数据)。并采取相应的措施,以提高客户体验,提出新的服务,或提高销售额。

自下而上的数据分析:摄入数据以填满数据湖

数据分析和数据湖有什么关系?大数据湖是分析的两种信息管理方法之一。

第一个是自上而下的数据仓库,第二个是自下而上的数据湖。为了让他更直观,让我们想象一个真正的湖的形象。湖不会平白无故的被填满,通常有河流或较小的溪流给它带来水。

数据湖是专为大数据分析而设计的,以解决大数据中的数据孤岛问题。

在数据湖中也会发生同样的情况。这也被称为数据的摄入,不论其来源或结构如何。通过上述数据分析,我们需收集实现目标所需的所有数据。

这些“数据流”有几种格式:结构化数据(简单地说,来自传统关系数据库甚至电子表格的数据:行和列), 非结构化数据 (社交、视频、电子邮件、短信……),来自各种日志的数据(如网志、点击流分析……)、机器对机、物联网和传感器数据,您可以将其命名为日志和XML,也称为半结构化数据。

它们还涉及从全局的角度来看各种类型的数据:客户数据、业务应用程序的数据、销售数据等(通过API输入数据湖)。显然,我们将在大多数时候需利用外部数据以实现我们的目标。

数据湖的使用:存储、分析和可视化

所有这些数据,只要它有意义,就会存储在数据湖中,同时它也会通过应用程序接口协议API,或从各种应用程序和系统中通过批处理过程不断输入数据。

存储维度是第二部分(摄入是第一部分)。在大数据湖中,这实际上意味着没有数据孤岛。因此,这意味着我们即将开始一项有趣的工作:大数据分析。

要知道,我们合并的数据集有时看起来是无关的,例如,我们可以使用人工智能来检测购买行为和天气状况之间的模式,来自一个来源的客户数据和另一个来源的客户数据,交通数据和污染数据之间的模式,这种模式不胜枚举。我们能用这些模式做什么?正如你所能想象的那样,在现实生活中,大量的大数据使用示例表明,这就是你的业务或其他目标发挥作用的地方。

显然,光是分析是不够的。你还需对所分析的东西进行想象、理解和行动。正如EMC关于数据湖如何工作的信息图表所示:流出的水是经过分析的数据,然后会采取相关的行动,进而产生商业洞察力。

数据湖里没有“水怪”,有的是,,,

为什么是数据湖?

如前所述,传统上有两种分析的信息管理方法。为什么数据湖(自下而上的方法)在数据分析中很受欢迎?

原因有很多。首先,重要的是要理解我们对数据湖的看法并不完全正确,它不仅仅是一些自下而上的大混乱数据沼泽。其中涉及到相当多的技术,协议等等。要妥善利用溪流进入湖中的图像:在水真正进入湖中之前,就已经安装了过滤器。

1. 历史遗留数据体系结构的挑战

数据湖更受欢迎的一部分原因是历史原因。

传统的数据系统并不是那么开放,如果想要集成、添加和混合数据以进行分析和操作的话,也不是很容易。传统数据架构的分析也不那么精确,成本也不低(需要额外的工具,取决于软件)。此外,它们的构建没有考虑到我们通常在大数据中的所有新的和正在出现的(外部)数据源。

2. 更快的大数据分析能力

使用数据湖的另一个重要原因是大数据分析可以更快地完成。

事实上数据湖是为大数据分析而设计的,更重要的是,它是为基于实时分析的实时操作而设计的。数据湖适合以一致的方式利用大量数据,并使用算法驱动实时分析。

3. 混合和汇聚数据:一个数据湖中的结构化和非结构化数据

数据湖还有一个优点是,可以获取、融合、集成和聚合所有类型的数据,而不论其来源和格式如何。

Hadoop是数据湖体系结构之一,它还可以处理主要数据块之上的结构化数据,也包括来自社会数据、日志等非结构化数据。顺便提一句:非结构化数据是所有数据中增长最快的形式(即使结构化数据也在不断增长),预计将达到所有数据的90%。

4. 将数据分析移到数据湖和边缘

还有一个事实是,来回移动大型数据集并不是明智的做法。

(编辑:52站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读