什么是数据仓库?
数据仓库是指企业或其他组织对信息进行安全电子存储。数据仓库的目标是创建一个历史数据宝库,这些数据可以被检索和分析,从而为组织的运营提供有用的见解。
数据仓库是商业智能的重要组成部分。商业智能这个更广泛的概念涵盖了现代企业用来追踪过去成功与失败并指导未来决策的信息基础设施。
要点总结
- 数据仓库是指企业或其他组织随时间推移存储信息的一种方式。
- 市场营销和销售等各个关键部门的人员会定期添加新数据。
- 仓库变成了一个历史数据图书馆,可以检索和分析这些数据,从而为业务决策提供信息。
- 构建有效数据仓库的关键因素包括定义对组织至关重要的信息以及确定信息的来源。
- 数据库旨在提供实时信息。数据仓库旨在作为历史信息的存档库。
数据仓库的工作原理
随着企业开始依赖计算机系统来创建、归档和检索重要的业务文档,数据仓库的需求也随之发展起来。数据仓库的概念由IBM的研究人员Barry Devlin和Paul Murphy于1988年提出。
数据仓库旨在实现对历史数据的分析。通过比较来自多个异构数据源的整合数据,可以深入了解公司的业绩。数据仓库允许用户对源自交易数据源的历史数据运行查询和分析。
添加到数据仓库中的数据不会更改,也无法修改。数据仓库是用于分析历史事件(重点关注随时间推移的变化)的数据源。仓库中的数据必须以安全、可靠、易于检索和管理的方式存储。
维护数据仓库
维护数据仓库需要采取一些特定步骤。其中一步是数据提取,即从多个数据源收集大量数据。数据收集完成后,需要进行数据清洗,也就是检查数据是否存在错误,并纠正或删除发现的错误数据。
清理后的数据随后从数据库格式转换为数据仓库格式。数据存储到数据仓库后,会进行排序、合并和汇总,以便于使用。随着各种数据源的更新,数据仓库中也会不断添加更多数据。
关于数据仓库的重要著作是 WH Inmon 的《构建数据仓库》,这是一本实用指南,于 1990 年首次出版,并多次再版。
如今,企业可以投资微软、谷歌、亚马逊和甲骨文等公司提供的基于云的数据仓库软件服务。
数据挖掘
企业存储数据主要是为了进行数据挖掘。这包括寻找信息模式,以帮助他们改进业务流程。
一个优秀的数据仓库系统能够让公司内部不同部门更轻松地访问彼此的数据。例如,市场营销团队可以评估销售团队的数据,从而制定调整销售策略的决策。
数据挖掘的五个步骤
数据挖掘过程分为五个步骤:
- 组织收集数据并将其加载到数据仓库中。
- 然后,数据将被存储和管理,存储地点可以是公司内部服务器,也可以是云服务。
- 业务分析师、管理团队和信息技术专业人员访问和组织数据。
- 应用软件对数据进行排序。
- 最终用户以易于共享的格式(例如图表或表格)呈现数据。
数据仓库的概念是由两位IBM研究人员于 1988 年提出的。
数据仓库架构
数据仓库的设计被称为数据仓库架构,根据数据仓库的需求,可以分为多个层级。通常有第一层级、第二层级和第三层级的架构设计。
单层架构:单层架构很少用于构建实时系统的数据仓库。它们通常用于批量和实时处理,以处理操作数据。单层设计由单层硬件构成,旨在最大限度地减少数据空间占用。
两层架构:在两层架构设计中,分析流程与业务流程分离。这样做的目的是为了提高控制水平和效率。
三层架构:三层架构设计包含顶层、中间层和底层,分别称为源层、协调层和数据仓库层。这种设计适用于生命周期较长的系统。当数据发生变更时,会额外进行一层数据审查和分析,以确保没有出现错误。
无论处于哪个层级,所有数据仓库架构都必须满足相同的五个特性:分离性、可扩展性、可扩展性、安全性和可管理性。
数据仓库与数据库
数据仓库与数据库并不相同:
- 数据库是一个事务处理系统,它监控和更新实时数据,以便只提供最新数据。
- 数据仓库通过编程实现随时间推移聚合结构化数据的功能。
例如,数据库可能只包含客户的最新地址,而数据仓库可能包含客户过去 10 年的所有地址。
数据挖掘依赖于数据仓库。通过筛选仓库中的数据,可以从中获取有关业务随时间变化的洞察。
数据仓库与数据湖
数据仓库和数据湖都存储着满足各种需求的数据。主要区别在于,数据湖存储的是尚未确定用途的原始数据,而数据仓库则存储的是经过筛选、用于特定用途的精炼数据。
数据湖主要供数据科学家使用,而数据仓库则多供业务人员使用。数据湖更易于访问和更新,而数据仓库结构更复杂,任何更改的成本都更高。
数据仓库与数据集市
数据集市是数据仓库的简化版。数据集市从少量数据源收集数据,并专注于一个主题领域。数据集市比数据仓库速度更快、更易于使用。
数据集市通常作为数据仓库的一个子集,专注于某一特定领域进行分析,例如组织内的特定部门。数据集市通过辅助分析和报告,帮助企业做出业务决策。
数据仓库的优点和缺点
数据仓库旨在为公司提供竞争优势。它创建了一个相关信息资源库,这些信息可以随时间推移进行跟踪和分析,从而帮助企业做出更明智的决策。
它还会消耗公司资源,并让现有员工承担繁重的日常工作,这些工作旨在为仓库运转提供所需物资。其他一些缺点包括:
- 建造和维护仓库需要花费大量的时间和精力。
- 人为错误造成的信息缺口可能需要数年时间才会显现,从而损害信息的完整性和实用性。
- 当使用多个信息源时,信息源之间的不一致会导致信息丢失。
优势
提供基于事实的公司过往业绩分析,为决策提供依据。
作为相关数据的历史档案库。
可以跨关键部门共享,以最大限度地发挥作用。
缺点
创建和维护仓库需要耗费大量资源。
输入错误可能会损害已存档信息的完整性。
使用多个数据源可能会导致数据不一致。
什么是数据仓库?它有什么用途?
数据仓库是一个用于存储历史数据的系统,这些数据可以以多种方式进行分析。公司和其他组织利用数据仓库来深入了解过去的业绩,并规划运营改进方案。
数据仓库示例是什么?
假设有一家生产健身器材的公司。该公司最畅销的产品是固定式自行车,并且正在考虑扩大产品线并推出新的营销活动来推广该产品。
它会访问数据仓库,以便更好地了解现有客户。它可以了解客户群体主要是50岁以上的女性还是35岁以下的男性。它还可以了解哪些零售商的自行车销售最成功,以及这些零售商的所在地。它或许还能访问内部调查结果,了解以往客户对其产品的喜好和不满之处。
所有这些信息都有助于公司决定要生产哪种新型自行车,以及如何进行市场营销和广告宣传。这些都是确凿的信息,而不是凭感觉做出的决定。
创建数据仓库的步骤有哪些?
据行业刊物《ITPro Today》报道,数据仓库的创建至少包含七个阶段,其中包括:
- 确定业务目标及其关键绩效指标。
- 收集和分析相关信息。
- 确定产生关键数据的核心业务流程。
- 构建概念数据模型,展示如何向最终用户显示数据。
- 确定数据来源并建立将数据导入数据仓库的流程。
- 设定跟踪期限。数据仓库可能会变得难以管理。许多数据仓库都采用分级归档的方式,因此较早的信息保留得不够详细。
- 执行计划。
SQL是数据仓库吗?
SQL,即结构化查询语言,是一种计算机语言,用于以数据库能够理解和响应的方式与数据库进行交互。它包含许多命令,例如“select”、“insert”和“update”。它是关系数据库管理系统的标准语言。
数据库与数据仓库并非同一概念,尽管两者都是信息存储库。数据库是信息的有序集合,而数据仓库则是持续从多个数据源构建的信息档案库。
数据仓库中的 ETL 是什么?
ETL 代表“提取、转换和加载”。ETL 是一种数据处理流程,它将来自多个数据源的数据合并到一个单一的数据存储单元中,然后将其加载到数据仓库或类似的数据系统中。它广泛应用于数据分析和机器学习领域。
结论
数据仓库是公司存储其业务信息及其历史业绩的存储库。它汇集了公司各关键部门员工的意见而创建,是分析公司过往成败得失并为决策提供依据的资源。