什麼是數據倉庫?數據倉儲與數據挖掘詳解

  |  

什麼是數據倉庫?

數據倉庫是指企業或其他組織對信息進行安全電子存儲。數據倉庫的目標是創建一個歷史數據寶庫,這些數據可以被檢索和分析,從而爲組織的運營提供有用的見解。

數據倉庫是商業智能的重要組成部分。商業智能這個更廣泛的概念涵蓋了現代企業用來追蹤過去成功與失敗並指導未來決策的信息基礎設施。

要點總結

  • 數據倉庫是指企業或其他組織隨時間推移存儲信息的一種方式。
  • 市場營銷和銷售等各個關鍵部門的人員會定期添加新數據。
  • 倉庫變成了一個歷史數據圖書館,可以檢索和分析這些數據,從而爲業務決策提供信息。
  • 構建有效數據倉庫的關鍵因素包括定義對組織至關重要的信息以及確定信息的來源。
  • 數據庫旨在提供即時信息。數據倉庫旨在作爲歷史信息的存檔庫。

數據倉庫的工作原理

隨着企業開始依賴計算機系統來創建、歸檔和檢索重要的業務文檔,數據倉庫的需求也隨之發展起來。數據倉庫的概念由IBM的研究人員Barry Devlin和Paul Murphy於1988年提出。

數據倉庫旨在實現對歷史數據的分析。通過比較來自多個異構數據源的整合數據,可以深入瞭解公司的業績。數據倉庫允許用戶對源自交易數據源的歷史數據運行查詢和分析。

添加到數據倉庫中的數據不會更改,也無法修改。數據倉庫是用於分析歷史事件(重點關注隨時間推移的變化)的數據源。倉庫中的數據必須以安全、可靠、易於檢索和管理的方式存儲。

維護數據倉庫

維護數據倉庫需要採取一些特定步驟。其中一步是數據提取,即從多個數據源收集大量數據。數據收集完成後,需要進行數據清洗,也就是檢查數據是否存在錯誤,並糾正或刪除發現的錯誤數據。

清理後的數據隨後從數據庫格式轉換爲數據倉庫格式。數據存儲到數據倉庫後,會進行排序、合併和彙總,以便於使用。隨着各種數據源的更新,數據倉庫中也會不斷添加更多數據。

關於數據倉庫的重要著作是 WH Inmon 的《構建數據倉庫》,這是一本實用指南,於 1990 年首次出版,並多次再版。

如今,企業可以投資微軟谷歌、亞馬遜和甲骨文等公司提供的基於雲的數據倉庫軟件服務。

數據挖掘

企業存儲數據主要是爲了進行數據挖掘。這包括尋找信息模式,以幫助他們改進業務流程。

一個優秀的數據倉庫系統能夠讓公司內部不同部門更輕鬆地訪問彼此的數據。例如,市場營銷團隊可以評估銷售團隊的數據,從而制定調整銷售策略的決策

數據挖掘的五個步驟

數據挖掘過程分爲五個步驟:

  1. 組織收集數據並將其加載到數據倉庫中。
  2. 然後,數據將被存儲和管理,存儲地點可以是公司內部服務器,也可以是服務。
  3. 業務分析師、管理團隊和信息技術專業人員訪問和組織數據。
  4. 應用軟件對數據進行排序。
  5. 最終用戶以易於共享的格式(例如圖表或表格)呈現數據。

數據倉庫的概念是由兩位IBM研究人員於 1988 年提出的。

數據倉庫架構

數據倉庫的設計被稱爲數據倉庫架構,根據數據倉庫的需求,可以分爲多個層級。通常有第一層級、第二層級和第三層級的架構設計。

單層架構:單層架構很少用於構建即時系統的數據倉庫。它們通常用於批量和即時處理,以處理操作數據。單層設計由單層硬件構成,旨在最大限度地減少數據空間佔用。

兩層架構:在兩層架構設計中,分析流程與業務流程分離。這樣做的目的是爲了提高控制水平和效率。

三層架構:三層架構設計包含頂層、中間層和底層,分別稱爲源層、協調層和數據倉庫層。這種設計適用於生命週期較長的系統。當數據發生變更時,會額外進行一層數據審查和分析,以確保沒有出現錯誤。

無論處於哪個層級,所有數據倉庫架構都必須滿足相同的五個特性:分離性、可擴展性、可擴展性、安全性和可管理性。

數據倉庫與數據庫

數據倉庫與數據庫並不相同:

  • 數據庫是一個事務處理系統,它監控和更新即時數據,以便只提供最新數據。
  • 數據倉庫通過編程實現隨時間推移聚合結構化數據的功能。

例如,數據庫可能只包含客戶的最新地址,而數據倉庫可能包含客戶過去 10 年的所有地址。

數據挖掘依賴於數據倉庫。通過篩選倉庫中的數據,可以從中獲取有關業務隨時間變化的洞察。

數據倉庫與數據湖

數據倉庫和數據湖都存儲着滿足各種需求的數據。主要區別在於,數據湖存儲的是尚未確定用途的原始數據,而數據倉庫則存儲的是經過篩選、用於特定用途的精煉數據。

數據湖主要供數據科學家使用,而數據倉庫則多供業務人員使用。數據湖更易於訪問和更新,而數據倉庫結構更復雜,任何更改的成本都更高。

數據倉庫與數據集市

數據集市是數據倉庫的簡化版。數據集市從少量數據源收集數據,並專注於一個主題領域。數據集市比數據倉庫速度更快、更易於使用。

數據集市通常作爲數據倉庫的一個子集,專注於某一特定領域進行分析,例如組織內的特定部門。數據集市通過輔助分析和報告,幫助企業做出業務決策。

數據倉庫的優點和缺點

數據倉庫旨在爲公司提供競爭優勢。它創建了一個相關信息資源庫,這些信息可以隨時間推移進行跟蹤和分析,從而幫助企業做出更明智的決策。

它還會消耗公司資源,並讓現有員工承擔繁重的日常工作,這些工作旨在爲倉庫運轉提供所需物資。其他一些缺點包括:

  • 建造和維護倉庫需要花費大量的時間和精力。
  • 人爲錯誤造成的信息缺口可能需要數年時間纔會顯現,從而損害信息的完整性和實用性。
  • 當使用多個信息源時,信息源之間的不一致會導致信息丟失。

優勢

  • 提供基於事實的公司過往業績分析,爲決策提供依據。

  • 作爲相關數據的歷史檔案庫。

  • 可以跨關鍵部門共享,以最大限度地發揮作用。

缺點

  • 創建和維護倉庫需要耗費大量資源。

  • 輸入錯誤可能會損害已存檔信息的完整性。

  • 使用多個數據源可能會導致數據不一致。

什麼是數據倉庫?它有什麼用途?

數據倉庫是一個用於存儲歷史數據的系統,這些數據可以以多種方式進行分析。公司和其他組織利用數據倉庫來深入瞭解過去的業績,並規劃運營改進方案。

數據倉庫示例是什麼?

假設有一家生產健身器材的公司。該公司最暢銷的產品是固定式自行車,並且正在考慮擴大產品線並推出新的營銷活動來推廣該產品。

它會訪問數據倉庫,以便更好地瞭解現有客戶。它可以瞭解客戶羣體主要是50歲以上的女性還是35歲以下的男性。它還可以瞭解哪些零售商的自行車銷售最成功,以及這些零售商的所在地。它或許還能訪問內部調查結果,瞭解以往客戶對其產品的喜好和不滿之處。

所有這些信息都有助於公司決定要生產哪種新型自行車,以及如何進行市場營銷和廣告宣傳。這些都是確鑿的信息,而不是憑感覺做出的決定。

創建數據倉庫的步驟有哪些?

據行業刊物《ITPro Today》報道,數據倉庫的創建至少包含七個階段,其中包括:

  • 確定業務目標及其關鍵績效指標。
  • 收集和分析相關信息。
  • 確定產生關鍵數據的核心業務流程。
  • 構建概念數據模型,展示如何向最終用戶顯示數據。
  • 確定數據來源並建立將數據導入數據倉庫的流程。
  • 設定跟蹤期限。數據倉庫可能會變得難以管理。許多數據倉庫都採用分級歸檔的方式,因此較早的信息保留得不夠詳細。
  • 執行計劃。

SQL是數據倉庫嗎?

SQL,即結構化查詢語言,是一種計算機語言,用於以數據庫能夠理解和響應的方式與數據庫進行交互。它包含許多命令,例如“select”、“insert”和“update”。它是關係數據庫管理系統的標準語言。

數據庫與數據倉庫並非同一概念,儘管兩者都是信息存儲庫。數據庫是信息的有序集合,而數據倉庫則是持續從多個數據源構建的信息檔案庫。

數據倉庫中的 ETL 是什麼?

ETL 代表“提取、轉換和加載”。ETL 是一種數據處理流程,它將來自多個數據源的數據合併到一個單一的數據存儲單元中,然後將其加載到數據倉庫或類似的數據系統中。它廣泛應用於數據分析和機器學習領域。

結論

數據倉庫是公司存儲其業務信息及其歷史業績的存儲庫。它彙集了公司各關鍵部門員工的意見而創建,是分析公司過往成敗得失併爲決策提供依據的資源。

推薦閱讀

相關文章

投資股票:初學者如何開始

投資是一種在你忙於生活的時候把錢存起來,讓這些錢為你工作的方式,這樣你就可以在未來充分收穫你的勞動回報。傳奇投資人沃倫·巴菲特將投資定義為“現在進行投資以期在未來獲得更多資金的過程”。投資的目標是將您的資金投入到一種或多種類型的投資工具中,以期隨著時間的推移增加您的資金。假設您有 1,000 美元,準備進入投資領域。

股息與回購:有什麼區別?

股息和回購有什麼區別?公司以兩種主要方式獎勵股東——支付股息或回購股票。越來越多的藍籌股或成熟的公司都在做這兩個方面。支付股息和股票回購是一個強有力的組合,可以顯著提高股東回報。

交易員的頂級技術分析工具

交易者(尤其是頻繁交易的交易者)成功的關鍵在於評估交易數據模式的能力。技術分析技術可以消除交易決策中的情緒因素。技術分析系統可以生成買賣指標並幫助找到新的交易機會。隨着過去 15 年來軟件的改進和訪問數百萬個數據點的速度的提高,所有在線交易者都可以使用技術分析工具。

數據分析師:職業道路和資格

熟練的數據分析師是世界上最受歡迎的專業人士之一。由於需求如此強勁,而真正能夠做好這項工作的人卻非常有限,因此數據分析師即使是入門級人員也能獲得高薪和優厚的待遇。可以在各種公司和行業中找到數據分析師的工作。任何使用數據的公司都需要數據分析師對其進行分析。

業務拓展:活動概述

什麼是業務拓展?簡而言之,業務發展可以概括爲有助於提升企業業績的想法、舉措和活動。這包括增加收入、通過業務擴張實現增長、通過建立戰略合作伙伴關係提高盈利能力以及制定戰略性業務決策。要點總結業務發展涵蓋了企業主和管理層爲使企業變得更好而實施的各種想法、活動和舉措。

會計信息系統簡介 - AIS

會計信息系統(AIS) 是企業用來收集、存儲、管理、處理、檢索和報告其財務數據的結構,以便會計師、顧問、業務分析師、經理、首席財務官 (CFO) 使用)、審計師、監管機構和稅務機構。

相關詞條

社會責任投資(SRI)

什麼是社會責任投資(SRI)?社會責任投資 (SRI),也稱爲社會投資,是一種由於公司業務性質而被視爲具有社會責任感的投資。社會責任投資的一個共同主題是具有社會意識的投資。社會責任投資可以投資於具有良好社會價值的個別公司,也可以通過具有社會意識的共同基金或交易所交易基金 (ETF) 進行。

歐洲最佳買賣報價 (EBBO)

什麼是歐洲最佳買賣報價 (EBBO)?歐洲最佳買入價和賣出價 (EBBO) 是一項監管要求,要求經紀商提供當前最優惠的買入或賣出金融工具價格。 EBBO 在歐洲相當於美國的全國最佳買賣報價(NBBO)在任何交易所,買方和賣方市場都會出現一系列價格水平。 EBBO 代表可用的最優惠價格;買入的最低價或賣出的最高價。

中國ETF

什麼是中國ETF?中國 ETF 是一種投資於中國證券的交易所交易基金(ETF)。這些基金通常是被動的,這意味着它們反映了 MSCI 中國指數或富時中國指數等基礎指數的持有量。中國有兩家全國性證券交易所:上海證券交易所和深圳證券交易所。此外,許多中國內地公司在香港聯交所上市。

魔術公式投資定義

什麼是神奇公式投資?魔術公式投資是指一種以規則爲基礎、有紀律的投資策略,它教給人們一種相對簡單易懂的價值投資方法。它依賴於公司和股票的量化篩選,旨在使用標準普爾 500 指數來代表市場回報,從而超越股市的平均年回報率。簡而言之,它通過根據價格和資本回報率對股票進行排名來發揮作用。

債券經紀人

什麼是債券經紀人?債券經紀人是代表投資者或交易者執行場外交易 (OTC) 和上市債券交易的經紀人。債券經紀人充當債務證券買賣雙方之間的中介,在交易結束時保持雙方的身份匿名,並為其服務賺取佣金。經紀人經常通過在線或電話與交易者交流,以便從交易對手那裡獲得報價。

協商交易系統 (NDS)

什麼是協商交易系統 (NDS)?協商交易系統 (NDS) 是由印度儲備銀行(RBI) 運營的電子交易平台,旨在促進政府證券和其他類型貨幣市場工具的發行和交換。 NDS 的目標是減少因電話訂單和手工文書工作而導致的低效率,同時提高所有市場參與者的透明度。關鍵點協商交易系統 (NDS) 促進了印度政府證券的交易和交易。