數據湖
數據湖(英語:data Lake)是指以檔案以其原始格式(如BLOB或檔案等)儲存的數據儲存庫或是系統[1] 。數據湖多半會將所有的數據統一儲存,包括源系統資料、感測器資料、社會資料等資料的原始副本[2],也包括用於報表、視覺化、數據分析和機器學習等流程之轉換後數據。數據湖也可能包括關聯式資料庫的結構化數據(行與列)、半結構化的數據(CSV、紀錄檔、XML、 JSON)及非結構化數據 (電子郵件、檔案、PDF)及二進制數據(圖像、音頻、影片)等[3]。數據湖可能是「on premises」(指在組織的數據中心裏),也可能放在雲端(使用Amazon、微軟或是Google的雲端服務)。
背景
據稱此術語由James Dixon為了與數據市集對比而提出,當時他是Pentaho的技術長。[6]數據市集相對較小,包含從原始數據提取出來的有價值的屬性。[7]在推廣數據湖的時候,他認為,數據市集有幾個原生的問題,例如資訊孤島。普華永道稱,數據湖可以"解決數據孤島。"[8] 在其數據湖研究中,他們指出,企業"開始使用一個單一的、基於Hadoop的儲存庫來存放和提取數據。"
Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿動力的技術,Cloudera和亞馬遜都有數據湖的產品。 [9]
範例
許多公司使用Azure Data Lake和 亞馬遜雲服務 Lake Formation之類的雲端儲存服務,或者Apache Hadoop之類的分散式檔案系統 [10] 學術界對於數據湖的興趣也正在興起。比如,Cardiff 大學的個人數據湖,它定位於管理個人大數據,提供收集,管理和分享個人數據的單一入口。
早期的數據湖(Hadoop 1.0)在批次數據處理方面能力有限,僅有(MapReduce) 這一個數據處理範式。數據湖的訪問者必須具備用Java實現MapReduce的能力,以及掌握一些高層工具,比如Apache Pig和Apache Hive(他們本身是面向批次處理的)。
批評
大多數情況下,管理不善的數據湖被稱為「數據沼澤」。[11]
在2015年6月,David Needle表示"所謂的數據湖"是"一個(相比之下)更具爭議性的方法來管理大數據"。[12]
普華永道也在它們的研究中謹慎地指出,並不是所有的數據湖行動都是成功的。他們參照Sean Martin,劍橋語意的技術長的話:
“ | 我們看見顧客們創造大型數據墳場,把所有的數據都扔進 Hadoop distributed file system (HDFS) 里,希望以後能派上用場。但是數據從此就失去了蹤跡。 最主要的挑戰不是創造數據湖,而是能從中獲益。[8] |
” |
普華永道描述那些在建立數據湖方面取得成功的公司能找出對組織重要的那些數據和元數據,逐步讓他們的數據湖趨向成熟。對於數據湖的另一項批評是,這一概念模糊和任意。它指的是不適合進入傳統的數據倉儲架構的任何工具或數據管理實踐。數據湖已被稱為一種特定的技術。數據湖已被標記為一個原始數據儲存庫或ETL解除安裝樞紐。數據湖已被定義為一個自助分析服務的中央樞紐。數據湖這一概念涵蓋了太多意義,因此這個術語的價值存疑。[13]
參考文獻
- ^ The growing importance of big data quality. [2019-12-20]. (原始內容存檔於2019-12-20).
- ^ What is a data lake?. aws.amazon.com. [12 October 2020]. (原始內容存檔於2023-04-05).
- ^ Campbell, Chris. Top Five Differences between DataWarehouses and Data Lakes. Blue-Granite.com. [19 May 2017]. (原始內容存檔於2017-09-15).
- ^ Olavsrud, Thor. 3 keys to keep your data lake from becoming a data swamp. CIO. [2017-07-05]. (原始內容存檔於2017-07-10) (英語).
- ^ Newman, Daniel. 6 Steps To Clean Up Your Data Swamp. Forbes. [2017-07-05]. (原始內容存檔於2017-08-03).
- ^ Woods, Dan. Big data requires a big architecture. Tech. Forbes. 21 July 2011 [2019-12-20]. (原始內容存檔於2019-09-02).
- ^ Dixon, James. Pentaho, Hadoop, and Data Lakes. James Dixon’s Blog. James. [7 November 2015]. (原始內容存檔於2019-12-20).
If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
- ^ 8.0 8.1 Stein, Brian; Morrison, Alan. Data lakes and the promise of unsiloed data (pdf) (報告). PricewaterhouseCooper.
- ^ Weaver, Lance. Why Companies are Jumping into Data Lakes. blog.equinox.com. [19 May 2017]. (原始內容存檔於2019-12-20).
- ^ Tuulos, Ville. Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances. 22 September 2015 [2019-12-20]. (原始內容存檔於2019-05-02).
- ^ 3 keys to keeping your data lake from becoming a data swamp. CIO. [2024-05-24]. (原始內容存檔於2023-12-09) (英語).
- ^ Needle, David. Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques. Enterprise Apps. eWeek. 10 June 2015 [1 November 2015].
Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.
[失效連結] - ^ Are Data Lakes Fake News?. Sonra. 2017-08-08 [2017-08-10]. (原始內容存檔於2018-08-21).
- ^ A smarter way to jump into data lakes | McKinsey. www.mckinsey.com. [2024-05-24]. (原始內容存檔於2024-05-24).