在數位化時代,資料是企業的重要資產,其管理和利用效率對企業的生存和發展有著重大影響。 根據《資料庫發展研究報告(2023)》,2024年全球資料庫市場規模為833億美元,中國資料庫市場規模為597億美元(約4.03億美元)6億元),佔72%。預計到2024年,中國資料庫市場總規模將達到1286家8億元,復合年增長率(CAGR)為261%。
近日,51CTO舉辦了兩場技術直播活動,聚焦資料庫前沿趨勢和實際應用,分別以“分布式資料庫應用與挑戰”和“湖倉一體技術實踐”為主題,邀請51CTO學院金牌講師和資料庫方向的企業技術專家進行分享,幫助使用者更好地了解和掌握資料庫領域的前沿技術趨勢和應用方法。
分布式資料庫系統是一種高效、可擴充套件、可靠的資料庫系統,適用於處理大規模資料和複雜的業務需求。 隨著雲計算和大資料技術的不斷發展,分布式資料庫系統將得到更廣泛的應用和發展。
51CTO學院認證講師Togo和星環資料庫高階架構師陳乾龍分別以“揭開分布式資料庫的奧秘”和“星環科技的分布式分析資料庫實踐”為主題,分享了他們的技能。
首先,多哥分享了大資料時代資料的特點、新時代的業務需求以及使用分布式資料庫的原因,並談到了大資料時代企業面臨的資料治理問題以及解決這些問題的一般解決方案。
多哥提到,在大資料時代,很多老問題變成了新的或大的問題。 這些挑戰包括計算能力挑戰和網際網絡應用特性的變化。 一方面,資料量的激增導致儲存和計算成本不斷增加,同時管理者需要關注資料量給整體計算帶來的任何方向性變化,以及資料管理迭代公升級帶來的底層架構挑戰。 另一方面,網際網絡應用的特徵正在逐漸向物聯網轉移,例如,商業模式正在從事務性業務(OLTP)轉向分析業務(OLAP),資料變得越來越異構。
Togo認為,面對這些挑戰,資料管理者可以嘗試將分布式程式設計的思想融入其中,從獨立程式設計思維模式到集群程式設計思維模式,從擴充套件思維模式到橫向擴充套件思維模式,並實現全新的系統堆疊。 因此,多哥總結了解決該問題的三個方向,即:分布式資料庫的選擇和引入、靈活便捷的資源排程、比移動資料更經濟的移動計算方法。
陳乾龍在致辭中引用了資訊通訊研究院未來資料庫技術發展的九個方向和四個目標,並提出融合,即架構整合,用統一架構取代混合架構和平台整合,統一資料湖、資料倉儲、資料集市是資料平台架構的發展趨勢。 陳乾龍表示,分布式分析資料庫可以取代Hadoop+MPP的混合架構。 支援標準SQL語法,提供多模型分析、實時資料處理、存算解耦、混合工作負載、資料聯邦、異構伺服器混合部署等高階技術能力。
在談到分布式分析資料庫的關鍵技術時,陳乾龍重點介紹了以下幾點:
首先,統一SQL表項,通過均衡負載來提高業務併發性。 同時,根據特定的規則,將查詢、批處理等不同業務分布到不同的計算資源,從而實現業務的分流,減少業務之間的相互影響。
二是統一SQL編譯引擎,簡化SQL開發適配,降低開發門檻,提高遷移效率。
第三,統一SQL計算引擎,通過向量化計算引擎提公升效能。
四是統一儲存管理,支援多模態資料,高效整合多源資料,促進多模型能力進一步增強。
第五,混合負載均衡管理將作業和資源池關聯起來,控制並實現資源的合理利用,從而實現系統資源利用效益的最大化。
第六,集群擴容不知跑業務,擴容後業績呈現線性提公升。
七是塊級容災突破地域限制,構建資料安全保障。
八、智慧型運維,整合集群管理、SQL開發、SQL監控等能力,實現一站式資料庫運維能力。
陳乾龍表示,企業在資料庫的選擇、應用和優化上要因地制宜,從具體需求出發。 同時,面對技術發展多變、應用特點多變、外部需求迫切的現狀,他建議資料庫運維人員應不斷學習、廣泛學習,時刻關注分布式資料庫的發展,保持足夠的技術敏感度,緊跟技術發展趨勢。
湖倉一體是一種創新的資料儲存和處理架構,具有強大的資料處理和分析能力,同時保證了資料的安全性和質量,逐漸成為企業主流的資料儲存方式。 湖倉一體解決方案具有低運維、低成本、多業態、多功能、高價值、高敏捷、安全、靈活等特點,在金融、網際網絡等行業已大規模應用。 51CTO學院金牌認證講師趙玉強、北京科捷科技CTO高景軍分別以“湖倉一體技術實踐”和“湖倉一體,打造資料智慧型新基石”為主題,帶來技術分享。
首先,趙玉強從資料倉儲和大資料技術出發,介紹了基於大資料技術的資料倉儲架構:lambda架構和kappa架構,以及大資料計算引擎:flink和spark,進一步引出了資料湖技術和基於資料湖的資料倉儲實現的話題。
趙玉強認為,資料倉儲本質上是乙個資料庫,傳統的關係型資料庫,如Oracle、MySQL等,也可以採用大資料生態體系來實現。 基於大資料技術的資料倉儲架構主要有兩種型別:lambda 和 kappa。 其中,lambda架構是用於構建資料倉儲的主要架構,分為離線資料倉儲和實時資料倉儲兩部分,使用HDFS或HBase儲存離線資料,使用訊息系統Kafka儲存實時資料。 對檔案資料進行封裝後,對提取的資料進行抽象,易於與資料湖整合,實現離線資料或實時資料的讀取功能。 與lambda架構相比,kappa架構只能讀取實時資料,雖然可以作為實時資料的特例讀取離線資料,但效能較差。
在介紹了大資料計算引擎Flink和Spark之後,趙玉強介紹了資料湖的概念和常用的技術框架。 簡而言之,資料湖儲存結構化和非結構化資料,是大規模、多工和高度多樣化資料的組織方法。 但是,資料湖不提供資料儲存能力,常見的資料湖技術框架包括 Hudi、Iceberg 和 Delta Lake。 在分享的最後,趙玉強還提供了乙個基於資料湖的資料倉儲、流批一體化架構,供大家參考。
隨後,北京科捷科技CTO高景軍先生帶來了以“湖倉一體,築立資料智慧型新基石”為主題的技術分享。 高敬軍從湖倉一體式建築的探索與建設、湖倉一體的技術實踐以及湖倉一體平台未來發展趨勢三個方面進行了分享。
高敬軍表示,LakeHouse是一種全新的開放式架構,它充分結合了資料湖和資料倉儲的優勢,建立在資料湖的低成本資料儲存架構之上,繼承了資料倉儲的資料處理和管理功能,完全可以滿足BI、DI和AI應用的需求。
至於建造湖畔別墅的核心要素,高敬軍認為有以下三點:
首先,可靠的湖上資料管理:一種用於組織資料的開放、高效能格式。
其次,支援機器學習和資料科學:一組開放、標準的 API。
第三,高階SQL效能:極其優化的執行引擎。
但隨著湖倉一體實踐的逐步深入,尤其是當單個鏈路的資料量達到分鐘級,日資料達到萬億級時,企業需要特別關注湖倉一體的效能。 例如:如何平衡流式處理和批量訪問?它不僅可以實現高效能和高效率,還可以實現低成本如果我在幾分鐘內接近極限時繼續加速,我該如何優化?高敬軍認為,要解決這些問題,就需要不斷優化技術架構,提公升資料湖計算引擎的能力,通過儲存和計算分離、元資料服務和查詢引擎的統一,不斷優化資料湖的效能。
高敬軍表示,企業資料架構呈現出從單一架構向多架構融合、資料資產從物理統一到邏輯統一的發展趨勢。 構建湖倉一體基礎資料庫,保障企業多架構融合平台基礎,助力企業構建智慧型資料新基石。
隨著資訊科技的不斷進步,資料庫技術已成為企業智慧型化建設的核心,它不僅儲存了企業的核心資料,還支援企業的業務運營和決策分析。
未來資料庫技術的發展將更加注重資料處理的效率和安全性。 一方面,隨著大資料時代的到來,企業需要處理的資料越來越多,資料庫技術需要不斷提高資料處理效率,以滿足企業的需求。 另一方面,隨著網路安全問題的日益嚴重,資料庫技術的安全性也越來越重要。 未來,資料庫技術將更加注重資料安全和私隱保護,採用更先進的資料加密和訪問控制技術,確保資料的安全性和完整性。
關於直播的更多細節,可以點選【資料庫直播區】、*直播回放、**嘉賓PPT。