什么是数据仓库?数据仓储与数据挖掘详解

  |  

什么是数据仓库?

数据仓库是指企业或其他组织对信息进行安全电子存储。数据仓库的目标是创建一个历史数据宝库,这些数据可以被检索和分析,从而为组织的运营提供有用的见解。

数据仓库是商业智能的重要组成部分。商业智能这个更广泛的概念涵盖了现代企业用来追踪过去成功与失败并指导未来决策的信息基础设施。

要点总结

  • 数据仓库是指企业或其他组织随时间推移存储信息的一种方式。
  • 市场营销和销售等各个关键部门的人员会定期添加新数据。
  • 仓库变成了一个历史数据图书馆,可以检索和分析这些数据,从而为业务决策提供信息。
  • 构建有效数据仓库的关键因素包括定义对组织至关重要的信息以及确定信息的来源。
  • 数据库旨在提供实时信息。数据仓库旨在作为历史信息的存档库。

数据仓库的工作原理

随着企业开始依赖计算机系统来创建、归档和检索重要的业务文档,数据仓库的需求也随之发展起来。数据仓库的概念由IBM的研究人员Barry Devlin和Paul Murphy于1988年提出。

数据仓库旨在实现对历史数据的分析。通过比较来自多个异构数据源的整合数据,可以深入了解公司的业绩。数据仓库允许用户对源自交易数据源的历史数据运行查询和分析。

添加到数据仓库中的数据不会更改,也无法修改。数据仓库是用于分析历史事件(重点关注随时间推移的变化)的数据源。仓库中的数据必须以安全、可靠、易于检索和管理的方式存储。

维护数据仓库

维护数据仓库需要采取一些特定步骤。其中一步是数据提取,即从多个数据源收集大量数据。数据收集完成后,需要进行数据清洗,也就是检查数据是否存在错误,并纠正或删除发现的错误数据。

清理后的数据随后从数据库格式转换为数据仓库格式。数据存储到数据仓库后,会进行排序、合并和汇总,以便于使用。随着各种数据源的更新,数据仓库中也会不断添加更多数据。

关于数据仓库的重要著作是 WH Inmon 的《构建数据仓库》,这是一本实用指南,于 1990 年首次出版,并多次再版。

如今,企业可以投资微软谷歌、亚马逊和甲骨文等公司提供的基于云的数据仓库软件服务。

数据挖掘

企业存储数据主要是为了进行数据挖掘。这包括寻找信息模式,以帮助他们改进业务流程。

一个优秀的数据仓库系统能够让公司内部不同部门更轻松地访问彼此的数据。例如,市场营销团队可以评估销售团队的数据,从而制定调整销售策略的决策

数据挖掘的五个步骤

数据挖掘过程分为五个步骤:

  1. 组织收集数据并将其加载到数据仓库中。
  2. 然后,数据将被存储和管理,存储地点可以是公司内部服务器,也可以是服务。
  3. 业务分析师、管理团队和信息技术专业人员访问和组织数据。
  4. 应用软件对数据进行排序。
  5. 最终用户以易于共享的格式(例如图表或表格)呈现数据。

数据仓库的概念是由两位IBM研究人员于 1988 年提出的。

数据仓库架构

数据仓库的设计被称为数据仓库架构,根据数据仓库的需求,可以分为多个层级。通常有第一层级、第二层级和第三层级的架构设计。

单层架构:单层架构很少用于构建实时系统的数据仓库。它们通常用于批量和实时处理,以处理操作数据。单层设计由单层硬件构成,旨在最大限度地减少数据空间占用。

两层架构:在两层架构设计中,分析流程与业务流程分离。这样做的目的是为了提高控制水平和效率。

三层架构:三层架构设计包含顶层、中间层和底层,分别称为源层、协调层和数据仓库层。这种设计适用于生命周期较长的系统。当数据发生变更时,会额外进行一层数据审查和分析,以确保没有出现错误。

无论处于哪个层级,所有数据仓库架构都必须满足相同的五个特性:分离性、可扩展性、可扩展性、安全性和可管理性。

数据仓库与数据库

数据仓库与数据库并不相同:

  • 数据库是一个事务处理系统,它监控和更新实时数据,以便只提供最新数据。
  • 数据仓库通过编程实现随时间推移聚合结构化数据的功能。

例如,数据库可能只包含客户的最新地址,而数据仓库可能包含客户过去 10 年的所有地址。

数据挖掘依赖于数据仓库。通过筛选仓库中的数据,可以从中获取有关业务随时间变化的洞察。

数据仓库与数据湖

数据仓库和数据湖都存储着满足各种需求的数据。主要区别在于,数据湖存储的是尚未确定用途的原始数据,而数据仓库则存储的是经过筛选、用于特定用途的精炼数据。

数据湖主要供数据科学家使用,而数据仓库则多供业务人员使用。数据湖更易于访问和更新,而数据仓库结构更复杂,任何更改的成本都更高。

数据仓库与数据集市

数据集市是数据仓库的简化版。数据集市从少量数据源收集数据,并专注于一个主题领域。数据集市比数据仓库速度更快、更易于使用。

数据集市通常作为数据仓库的一个子集,专注于某一特定领域进行分析,例如组织内的特定部门。数据集市通过辅助分析和报告,帮助企业做出业务决策。

数据仓库的优点和缺点

数据仓库旨在为公司提供竞争优势。它创建了一个相关信息资源库,这些信息可以随时间推移进行跟踪和分析,从而帮助企业做出更明智的决策。

它还会消耗公司资源,并让现有员工承担繁重的日常工作,这些工作旨在为仓库运转提供所需物资。其他一些缺点包括:

  • 建造和维护仓库需要花费大量的时间和精力。
  • 人为错误造成的信息缺口可能需要数年时间才会显现,从而损害信息的完整性和实用性。
  • 当使用多个信息源时,信息源之间的不一致会导致信息丢失。

优势

  • 提供基于事实的公司过往业绩分析,为决策提供依据。

  • 作为相关数据的历史档案库。

  • 可以跨关键部门共享,以最大限度地发挥作用。

缺点

  • 创建和维护仓库需要耗费大量资源。

  • 输入错误可能会损害已存档信息的完整性。

  • 使用多个数据源可能会导致数据不一致。

什么是数据仓库?它有什么用途?

数据仓库是一个用于存储历史数据的系统,这些数据可以以多种方式进行分析。公司和其他组织利用数据仓库来深入了解过去的业绩,并规划运营改进方案。

数据仓库示例是什么?

假设有一家生产健身器材的公司。该公司最畅销的产品是固定式自行车,并且正在考虑扩大产品线并推出新的营销活动来推广该产品。

它会访问数据仓库,以便更好地了解现有客户。它可以了解客户群体主要是50岁以上的女性还是35岁以下的男性。它还可以了解哪些零售商的自行车销售最成功,以及这些零售商的所在地。它或许还能访问内部调查结果,了解以往客户对其产品的喜好和不满之处。

所有这些信息都有助于公司决定要生产哪种新型自行车,以及如何进行市场营销和广告宣传。这些都是确凿的信息,而不是凭感觉做出的决定。

创建数据仓库的步骤有哪些?

据行业刊物《ITPro Today》报道,数据仓库的创建至少包含七个阶段,其中包括:

  • 确定业务目标及其关键绩效指标。
  • 收集和分析相关信息。
  • 确定产生关键数据的核心业务流程。
  • 构建概念数据模型,展示如何向最终用户显示数据。
  • 确定数据来源并建立将数据导入数据仓库的流程。
  • 设定跟踪期限。数据仓库可能会变得难以管理。许多数据仓库都采用分级归档的方式,因此较早的信息保留得不够详细。
  • 执行计划。

SQL是数据仓库吗?

SQL,即结构化查询语言,是一种计算机语言,用于以数据库能够理解和响应的方式与数据库进行交互。它包含许多命令,例如“select”、“insert”和“update”。它是关系数据库管理系统的标准语言。

数据库与数据仓库并非同一概念,尽管两者都是信息存储库。数据库是信息的有序集合,而数据仓库则是持续从多个数据源构建的信息档案库。

数据仓库中的 ETL 是什么?

ETL 代表“提取、转换和加载”。ETL 是一种数据处理流程,它将来自多个数据源的数据合并到一个单一的数据存储单元中,然后将其加载到数据仓库或类似的数据系统中。它广泛应用于数据分析和机器学习领域。

结论

数据仓库是公司存储其业务信息及其历史业绩的存储库。它汇集了公司各关键部门员工的意见而创建,是分析公司过往成败得失并为决策提供依据的资源。

推荐阅读

相关文章

6大债券风险

债券可以成为创收的好工具,被广泛认为是一种安全的投资,尤其是与股票相比。但是,投资者应注意持有公司债券和政府债券的潜在陷阱。下面,我们将讨论可能影响您来之不易的回报的风险。要点这些是持有债券的风险:风险 1:当利率下降时,债券价格会上涨。风险#2:必须以低于基金先前收益的利率再投资收益。

加密货币 ETF 定义

什么是加密货币 ETF?加密货币交易所交易基金 (ETF)是由加密货币组成的基金。虽然大多数 ETF 跟踪一个指数或一篮子资产,但加密货币 ETF 跟踪一个或多个数字代币的价格。根据投资者的买卖情况,加密货币 ETF 的股价每天都会波动。就像普通股票一样,它们也每天交易。

交易员的顶级技术分析工具

交易者(尤其是频繁交易的交易者)成功的关键在于评估交易数据模式的能力。技术分析技术可以消除交易决策中的情绪因素。技术分析系统可以生成买卖指标并帮助找到新的交易机会。随着过去 15 年来软件的改进和访问数百万个数据点的速度的提高,所有在线交易者都可以使用技术分析工具。

数据分析师:职业道路和资格

熟练的数据分析师是世界上最受欢迎的专业人士之一。由于需求如此强劲,而真正能够做好这项工作的人却非常有限,因此数据分析师即使是入门级人员也能获得高薪和优厚的待遇。可以在各种公司和行业中找到数据分析师的工作。任何使用数据的公司都需要数据分析师对其进行分析。

业务拓展:活动概述

什么是业务拓展?简而言之,业务发展可以概括为有助于提升企业业绩的想法、举措和活动。这包括增加收入、通过业务扩张实现增长、通过建立战略合作伙伴关系提高盈利能力以及制定战略性业务决策。要点总结业务发展涵盖了企业主和管理层为使企业变得更好而实施的各种想法、活动和举措。

会计信息系统简介 - AIS

会计信息系统(AIS) 是企业用来收集、存储、管理、处理、检索和报告其财务数据的结构,以便会计师、顾问、业务分析师、经理、首席财务官 (CFO) 使用)、审计师、监管机构和税务机构。

相关词条

孟买银行间同业拆借利率(MIBOR):定义,与MIBID的比较

什么是孟买银行间同业拆借利率(MIBOR)?孟买银行间同业拆借利率(MIBOR)是印度银行间利率的一种形式,指的是银行间短期贷款利率。随着印度金融市场的不断发展,印度认为其债务市场需要一个参考利率,这促成了MIBOR的开发和推出。

公司债券定义

什么是公司债券?公司债券是一种由公司发行并出售给投资者的债务证券。公司获得所需的资本,投资者则获得预先确定的固定或浮动利率的利息。当债券到期或“到期”时,利息支付将停止,原始投资将退还。债券的担保通常是公司的偿还能力,这取决于公司未来的收入和盈利前景。在某些情况下,公司的实物资产可能被用作抵押品。

股票证书

什么是股票证书?股票证书是代表公司签署的书面文件,作为拥有指定股份数量的法律证明。股票证书也称为股票证书。重点摘要股票证书是由在市场上出售股票的公司发行的文件。股东收到股票证书作为其购买的收据并反映其对公司一定数量股份的所有权。在当今的金融世界中,实物股票证书的发行非常少,大多数情况下都被数字记录所取代。

未摊销债券溢价定义

什么是未摊销债券溢价?未摊销债券溢价是指债券面值与其售价之间的差额。如果债券以折价出售,例如,以 90 美分的价格出售,发行人仍必须按面值偿还全部 100 美分的面值。由于该利息金额尚未支付给债券持有人,因此它是发行人的负债。要点未摊销债券溢价是债券发行人出售证券的价格减去债券到期时的实际面值后的净差额。

MSCI 新兴市场指数定义

什么是 MSCI 新兴市场指数? MSCI 新兴市场指数是精选的股票,旨在追踪快速发展国家中主要公司的财务表现。它是MSCI Inc.(前身为摩根士丹利资本国际)创建的众多指数之一。想要购买全球股票的美国投资者可以购买反映该指数的交易所交易基金(ETF) 的股票。

经验丰富的问题

什么是经验丰富的问题? 经验丰富的发行是来自已建立证券的公司的额外证券发行,该公司的证券已经在 二级市场交易。经验丰富的发行也称为经验丰富的股票发行或 后续公开募股 (FPO)。蓝筹股公司发行的新股被认为是经验丰富的股票。在二级市场交易的未偿债券也被称为经验丰富的债券。