什麼是數據倉庫?
數據倉庫是指企業或其他組織對信息進行安全電子存儲。數據倉庫的目標是創建一個歷史數據寶庫,這些數據可以被檢索和分析,從而爲組織的運營提供有用的見解。
數據倉庫是商業智能的重要組成部分。商業智能這個更廣泛的概念涵蓋了現代企業用來追蹤過去成功與失敗並指導未來決策的信息基礎設施。
要點總結
- 數據倉庫是指企業或其他組織隨時間推移存儲信息的一種方式。
- 市場營銷和銷售等各個關鍵部門的人員會定期添加新數據。
- 倉庫變成了一個歷史數據圖書館,可以檢索和分析這些數據,從而爲業務決策提供信息。
- 構建有效數據倉庫的關鍵因素包括定義對組織至關重要的信息以及確定信息的來源。
- 數據庫旨在提供即時信息。數據倉庫旨在作爲歷史信息的存檔庫。
數據倉庫的工作原理
隨着企業開始依賴計算機系統來創建、歸檔和檢索重要的業務文檔,數據倉庫的需求也隨之發展起來。數據倉庫的概念由IBM的研究人員Barry Devlin和Paul Murphy於1988年提出。
數據倉庫旨在實現對歷史數據的分析。通過比較來自多個異構數據源的整合數據,可以深入瞭解公司的業績。數據倉庫允許用戶對源自交易數據源的歷史數據運行查詢和分析。
添加到數據倉庫中的數據不會更改,也無法修改。數據倉庫是用於分析歷史事件(重點關注隨時間推移的變化)的數據源。倉庫中的數據必須以安全、可靠、易於檢索和管理的方式存儲。
維護數據倉庫
維護數據倉庫需要採取一些特定步驟。其中一步是數據提取,即從多個數據源收集大量數據。數據收集完成後,需要進行數據清洗,也就是檢查數據是否存在錯誤,並糾正或刪除發現的錯誤數據。
清理後的數據隨後從數據庫格式轉換爲數據倉庫格式。數據存儲到數據倉庫後,會進行排序、合併和彙總,以便於使用。隨着各種數據源的更新,數據倉庫中也會不斷添加更多數據。
關於數據倉庫的重要著作是 WH Inmon 的《構建數據倉庫》,這是一本實用指南,於 1990 年首次出版,並多次再版。
如今,企業可以投資微軟、谷歌、亞馬遜和甲骨文等公司提供的基於雲的數據倉庫軟件服務。
數據挖掘
企業存儲數據主要是爲了進行數據挖掘。這包括尋找信息模式,以幫助他們改進業務流程。
一個優秀的數據倉庫系統能夠讓公司內部不同部門更輕鬆地訪問彼此的數據。例如,市場營銷團隊可以評估銷售團隊的數據,從而制定調整銷售策略的決策。
數據挖掘的五個步驟
數據挖掘過程分爲五個步驟:
- 組織收集數據並將其加載到數據倉庫中。
- 然後,數據將被存儲和管理,存儲地點可以是公司內部服務器,也可以是雲服務。
- 業務分析師、管理團隊和信息技術專業人員訪問和組織數據。
- 應用軟件對數據進行排序。
- 最終用戶以易於共享的格式(例如圖表或表格)呈現數據。
數據倉庫的概念是由兩位IBM研究人員於 1988 年提出的。
數據倉庫架構
數據倉庫的設計被稱爲數據倉庫架構,根據數據倉庫的需求,可以分爲多個層級。通常有第一層級、第二層級和第三層級的架構設計。
單層架構:單層架構很少用於構建即時系統的數據倉庫。它們通常用於批量和即時處理,以處理操作數據。單層設計由單層硬件構成,旨在最大限度地減少數據空間佔用。
兩層架構:在兩層架構設計中,分析流程與業務流程分離。這樣做的目的是爲了提高控制水平和效率。
三層架構:三層架構設計包含頂層、中間層和底層,分別稱爲源層、協調層和數據倉庫層。這種設計適用於生命週期較長的系統。當數據發生變更時,會額外進行一層數據審查和分析,以確保沒有出現錯誤。
無論處於哪個層級,所有數據倉庫架構都必須滿足相同的五個特性:分離性、可擴展性、可擴展性、安全性和可管理性。
數據倉庫與數據庫
數據倉庫與數據庫並不相同:
- 數據庫是一個事務處理系統,它監控和更新即時數據,以便只提供最新數據。
- 數據倉庫通過編程實現隨時間推移聚合結構化數據的功能。
例如,數據庫可能只包含客戶的最新地址,而數據倉庫可能包含客戶過去 10 年的所有地址。
數據挖掘依賴於數據倉庫。通過篩選倉庫中的數據,可以從中獲取有關業務隨時間變化的洞察。
數據倉庫與數據湖
數據倉庫和數據湖都存儲着滿足各種需求的數據。主要區別在於,數據湖存儲的是尚未確定用途的原始數據,而數據倉庫則存儲的是經過篩選、用於特定用途的精煉數據。
數據湖主要供數據科學家使用,而數據倉庫則多供業務人員使用。數據湖更易於訪問和更新,而數據倉庫結構更復雜,任何更改的成本都更高。
數據倉庫與數據集市
數據集市是數據倉庫的簡化版。數據集市從少量數據源收集數據,並專注於一個主題領域。數據集市比數據倉庫速度更快、更易於使用。
數據集市通常作爲數據倉庫的一個子集,專注於某一特定領域進行分析,例如組織內的特定部門。數據集市通過輔助分析和報告,幫助企業做出業務決策。
數據倉庫的優點和缺點
數據倉庫旨在爲公司提供競爭優勢。它創建了一個相關信息資源庫,這些信息可以隨時間推移進行跟蹤和分析,從而幫助企業做出更明智的決策。
它還會消耗公司資源,並讓現有員工承擔繁重的日常工作,這些工作旨在爲倉庫運轉提供所需物資。其他一些缺點包括:
- 建造和維護倉庫需要花費大量的時間和精力。
- 人爲錯誤造成的信息缺口可能需要數年時間纔會顯現,從而損害信息的完整性和實用性。
- 當使用多個信息源時,信息源之間的不一致會導致信息丟失。
優勢
提供基於事實的公司過往業績分析,爲決策提供依據。
作爲相關數據的歷史檔案庫。
可以跨關鍵部門共享,以最大限度地發揮作用。
缺點
創建和維護倉庫需要耗費大量資源。
輸入錯誤可能會損害已存檔信息的完整性。
使用多個數據源可能會導致數據不一致。
什麼是數據倉庫?它有什麼用途?
數據倉庫是一個用於存儲歷史數據的系統,這些數據可以以多種方式進行分析。公司和其他組織利用數據倉庫來深入瞭解過去的業績,並規劃運營改進方案。
數據倉庫示例是什麼?
假設有一家生產健身器材的公司。該公司最暢銷的產品是固定式自行車,並且正在考慮擴大產品線並推出新的營銷活動來推廣該產品。
它會訪問數據倉庫,以便更好地瞭解現有客戶。它可以瞭解客戶羣體主要是50歲以上的女性還是35歲以下的男性。它還可以瞭解哪些零售商的自行車銷售最成功,以及這些零售商的所在地。它或許還能訪問內部調查結果,瞭解以往客戶對其產品的喜好和不滿之處。
所有這些信息都有助於公司決定要生產哪種新型自行車,以及如何進行市場營銷和廣告宣傳。這些都是確鑿的信息,而不是憑感覺做出的決定。
創建數據倉庫的步驟有哪些?
據行業刊物《ITPro Today》報道,數據倉庫的創建至少包含七個階段,其中包括:
- 確定業務目標及其關鍵績效指標。
- 收集和分析相關信息。
- 確定產生關鍵數據的核心業務流程。
- 構建概念數據模型,展示如何向最終用戶顯示數據。
- 確定數據來源並建立將數據導入數據倉庫的流程。
- 設定跟蹤期限。數據倉庫可能會變得難以管理。許多數據倉庫都採用分級歸檔的方式,因此較早的信息保留得不夠詳細。
- 執行計劃。
SQL是數據倉庫嗎?
SQL,即結構化查詢語言,是一種計算機語言,用於以數據庫能夠理解和響應的方式與數據庫進行交互。它包含許多命令,例如“select”、“insert”和“update”。它是關係數據庫管理系統的標準語言。
數據庫與數據倉庫並非同一概念,儘管兩者都是信息存儲庫。數據庫是信息的有序集合,而數據倉庫則是持續從多個數據源構建的信息檔案庫。
數據倉庫中的 ETL 是什麼?
ETL 代表“提取、轉換和加載”。ETL 是一種數據處理流程,它將來自多個數據源的數據合併到一個單一的數據存儲單元中,然後將其加載到數據倉庫或類似的數據系統中。它廣泛應用於數據分析和機器學習領域。
結論
數據倉庫是公司存儲其業務信息及其歷史業績的存儲庫。它彙集了公司各關鍵部門員工的意見而創建,是分析公司過往成敗得失併爲決策提供依據的資源。