企業要數位轉型,最好先看看ETL到Data Virtualization
#hivetalks 14
數據庫分析一直存在一個老問題,叫做Data Silos。
Data Silos的中文叫做數據孤島,或是數據煙囪。指的就是數據庫之間無法分享或是無法互通。有很多原因造成這個問題:例如
1. A部門的數據庫是用MongoDB寫的,可是B部門是十年前就做好的MySQL。或是C部門數據庫是十年前老舊的系統,當年還是外包的,人也都不在了,效能已經到頭了;
2. 或是公司併購後,被收購方的數據庫就是用別的語言寫的。也有可能是架構完全不同;
3. 還有一個可能,一些機密的數據庫是On-prem,其他數據庫是雲端,彼此根本難以串通。
總而言之,跨部門的數據庫互通本來就是一件耗時耗力且難以完成的大工程。
可是。。。。。
打通數據庫卻是至關重要。現在大家都在做數據轉型,但是如果你各部門之間的數據不打通,高階管理人員或是現場管理人員怎麼能知道實時的數據呢?如果你的數據少了一塊,但是你卻要依靠這個數據來做決定。如果因此造成錯誤的決策,那將後悔莫及。
以前也能解決Data Silos這個問題,有一個很粗暴的方式解決,就是提取數據,重新匯總。也就是有一個ETL的過程(Extract,Transfom, Load)。而且這個ETL的過程是可能實時交換或是每天定期做,才能維持總表的新鮮度和正確性。然後總表放哪裡呢?就需要一個新的地方存放,叫做Data Warehouse。總之這個過程就是十分的花錢和耗時。
那有些人就想了,這個問題能不能給解決呢?總不能一直提取資料匯總吧?而且隨著資料越來越多,提取的時間會越來越長,這個模式不是很有經濟效益。
此時,天空飄來了一段話:“Data Virtualization!”這個概念橫空出世。
圖片來源:Data Virtualization For Dummies®, Denodo Special Edition Published by: John Wiley & Sons, Ltd., The Atrium, Southern Gate Chichester, West Sussex, www.wiley.com
發明這個概念的人已經不可考,但是他提出的理念就是,不要再移動數據複製總表了。我們能不能把數據留在原地,只要提取裡面我們需要的數據就好了。
所以簡單來說,Data Virtualization就是不複製總表了,改成在跨部門的數據庫上加一個雲端的layer,只提取數值和文字到這個layer來,讓數據科學家,根據他需要的報表、BI,或是推薦引擎,更有可能是AI modeling需要的數據,來做雲端的計算,實時的提供運算結果給需要的部門和模型。
當然要這麼做,必須要能支援不同數據庫語言,包含:SAP、Oracle、MySQL、MongoDB、Redshift等各類型的數據庫。所以不是一個簡單的技術。
因此Data Vitrualization成為ETL後,目前炙手可熱的關鍵詞。
Data Virtualization的好處是什麼呢?
1. 省去了ETL的過程;
2. 省去了Data Warehousing;
3. 數據運算更加實時;
4. 由於沒有那個日益龐大的總表,成本下降很多,Data Warehouse的成本不便宜,而且隨著時間一長,資料越大,越來越貴;
5. 可以處理更龐大的資料量。
不要小看這些數據量,未來的IoT設備有海量的數據每天產生,這些數據將會造成數據庫運行崩潰,如果還嘗試要用傳統做法來做BI和decision making,以前的做法不可取,勢必要往Data Virtualization來走。
Data Virtualization雖然炙手可熱,但由於技術門檻高,現在能做的服務商,多數是歐美大廠,例如 TIBCO, Denodo等有提供,目前台灣僅有一家Canner易開科技能提供 Data Virtualization 相關產品技術。
隨著各大企業爭相要做數位轉型,每家公司要面臨的就是如何整理自己公司的數據。沒有數據,沒有數位轉型。當企業開始做這些動作時,將會體驗到Data Silos的問題,以及日益龐大的數據庫資料。此時,他們最需要的就是data virtualization的解決方案。
謝謝Roy的照片,總是把台北拍的不一樣。這次選這張照片,是仰望天空有分離式數據庫的感覺。
Previous posts:
👉hivetalks 1 👍邊緣計算
👉hivetalks 2 👍5G除了快,到底可以幹嘛?
👉hivetalks 3 👍CPU、GPU,還有什麼U
👉hivetalks 4 👍量子計算機
👉hivetalks 5 👍IoT我知道,但是什麼是AIot, NB-IoT,這些跟我啥關係?
👉hivetalks 6👍疫情過後,成聖還是成魔?
👉hivetalks 7👍燒錢賺用戶的模式不行了,精細化運營才是王道
👉hivetalks 8👍Mary Meeker分析後新冠肺炎的世界
👉hivetalks 9👍見VC前,建議你準備好這6件事
👉hivetalks 10👍新創現在需要的不是Fat Startup Strategy,而是Camel
👉hivetalks 11👍全球VC全面過冬,但亞洲可望反彈
👉hivetalks 12👍#新創vs新冠,台灣是少數幾個針對新創有紓困措施的國家
👉hivetalks 13👍#美國失業率飆漲到14.7%,可能催生新經濟模式