研究範圍
在一流、地方資訊化創新政策的推動下,我國部分資訊化創新領域正在從“試點驗證”階段邁向“規模化推廣”階段。 隨著資訊化、創新化換代的深入,iAnalytics觀察到,在需求端,企業對資訊化和創新產品的需求正在逐步融合更豐富的業務需求和未來數智化規劃,正在從“類似替代”向“迭代公升級”轉變; 在供應端,新創產品已經跨越了“好用”和“能用”,正在進入實力競爭的“好用”階段。 企業對資訊化、創新產品迭代公升級的具體需求如下:
1. 軟體基礎設施
資料庫是基礎軟體更新換代的重點,企業對資料庫的更新換代需求是專門針對IOE資料庫在功能和效能上替代IOE資料庫,同時也是為了滿足企業如上雲遷移、資源彈性伸縮、混合事務分析、多模型資料管理和查詢等需求,因此企業開始考慮雲原生, 儲存和計算分離,HTAP,超融合等功能特性用於資料庫替換。
同時,在資料架構方面,企業需要解決異構資料來源架構下資料開發和運維的難點,湖倉一體架構正在成為替代大資料平台架構的新方向。
2. 申請
OA是企業的核心辦公軟體,在綜合替代軟體中也排名第一。 以OA系統的文件管理為例,企業在替代國產產品時,增加了知識體系建設、員工辦公效率提公升、辦公流程自動化等業務場景。
在客戶資訊管理方面,企業傳統的客戶資訊管理主要通過Oracle、SAP等系統進行管理,但在此次本土化替代中,企業在實現客戶資訊管理功能的基礎上,會考慮業務的增長和未來對業務系統互聯互通的數字智慧型需求, 因此,具有平台特色的CDP引起了人們的關注。
在這份報告中,根據IT架構,iAnalytics將資訊創新市場從下到上分為五個層次:基礎硬體、基礎軟體、技術支援層、資料層和上層應用軟體。 基礎硬體包括晶元、伺服器、PC、印表機、儲存等; 基礎軟體包括作業系統、資料庫和中介軟體。 技術支撐層包括底層平台、資料科學和機器學習平台、私隱保護計算、資訊創新雲、雲原生、安全等; 資料層包括資料中臺、大資料平台、資料倉儲、湖倉一體等; 上層應用分為通用應用軟體和工業軟體,涉及辦公、管理應用、研發設計、製造等多個細分場景。
本報告針對公司決策層、數位化部門負責人、資訊科技部門負責人、業務負責人,通過對各特定市場需求的界定,對代表性廠商能力的解讀,為公司本土化適配規劃和選型提供參考。
本次評估報告聚焦湖倉一體市場資料層,iAnalytics重點關注湖倉一體廠商科捷科技的能力評估。
市場定義:
基於湖倉一體架構,對多模型異構資料進行統一儲存、管理和計算,支援BI、資料科學、AI ML、實時分析等資料應用場景,實現資料的自由流動和共享,降低資料開發和運維的複雜度。
甲方終端使用者:
企業資料部、IT部。
甲方核心要求:
雲計算、大資料、物聯網等技術的發展,帶動了企業資料量的爆發式增長,資料型別也極為豐富。 企業對半結構化和非結構化資料的儲存、處理、應用提出了新的要求,資料倉儲或資料湖難以滿足企業的需求。 在此背景下,湖倉一體資料架構可以整合資料倉儲和資料湖的優勢,成為企業資料架構演進的新方向。 企業對湖倉一體解決方案的需求如下:
實現海量異構資料統一儲存、批量流式處理的開發正規化,降低資料儲存、計算、運維成本。 在以往構建資料平台的過程中,企業往往形成了資料倉儲與資料湖並存的資料架構,以及“離線計算”和“實時計算”的雙鏈路共存。 資料的儲存冗餘是通過資料倉儲和資料湖之間的資料儲存和呼叫來建立的; 同時,離線鏈路和實時鏈路中資料的儲存、清洗和轉換將同時帶來儲存和計算冗餘。 雙鏈路和資料湖也使企業的資料架構變得極其複雜,系統監控、效能優化、故障排除等運維工作量呈指數級增長。 此外,傳統的資料倉儲和大資料平台架構與儲存和計算資源相結合,在面對大資料集時容易出現儲存資源冗餘和計算資源不足,企業需要花費數小時或更長的時間來查詢資料,限制了大資料分析的效能。
實現多模異構資料的統一管理,提高資料質量。 一方面,資料湖本身容易因缺乏資料質量和資料治理而形成資料沼澤,從而降低資料可用性。 另一方面,在資料倉儲和資料湖構建的通用資料架構中,資料倉儲和資料湖之間的資料流轉和呼叫需要多個引擎實現,操作複雜,難以保證可靠性,容易造成資料一致性問題。
可同時支援資料分析、資料探勘、機器學習、RPA等工作負載,適配全球資料融合分析場景。 對於全球資料的聯合分析,以電商平台為例,電商平台需要對**、評論、**等非結構化資料以及產品銷售、使用者行為等結構化資料進行聯合分析。 例如,資料倉儲使用SQL處理結構化資料,適用於BI分析場景,資料湖使用非SQL處理非結構化資料,適用於機器學習、知識圖譜等場景。
滿足**單位、國有企業及金融等領域的本土化要求。 湖倉一體架構應接入伺服器、晶元、作業系統、資料庫、中介軟體等各種基礎設施,支援本地化適配,滿足企業自主可控的需求。
供應商能力要求:
它能夠以統一的方式儲存和管理多種型別的異構資料。 資料湖倉一體化資料架構底層支援結構、時序、文件、影象等多模資料的冷熱自動分層儲存,支援在儲存層的基礎上,將多模型資料作為Apache Hudi、Delta Lake、Apache Iceberg三種資料湖型別中的一種或多種進行儲存, 從而實現統一的元資料管理,支援ACID事務處理、版本控制等資料管理功能,使多個計算引擎可以共享統一的資料儲存。
它具有批量流的整合技術。 廠商應支援一套開發正規化,實現大資料的流式計算和批量計算,降低資料開發和運維難度。 對於資料採集,廠商應降低批量流採集任務配置的複雜度,一次配置後,程式即可自動採集批次和流資料。 對於資料分析,供應商的湖倉一體解決方案應提供流式分析功能,以支援實時業務決策。
支援儲存和計算分離架構,實現海量資料的低成本儲存。 支援儲存和計算分離,可根據需要彈性擴充套件計算資源和儲存資源。 其中,資源排程系統應整合機器學習演算法,根據任務優先順序、資源需求、系統健康等因素對資源分配做出智慧型決策,通過靈活的任務排程提高資源利用率。
支援各種工作負載。 資料湖倉一體資料架構應支援批處理引擎、流處理引擎、互動式查詢引擎、互動式分析引擎、機器學習引擎等通用資料處理引擎的整合,或者以統一引擎支援多個工作負載,以適應資料分析師可以用一種語言對多模型異構資料進行融合分析的場景。
製造商應具有適應國內資訊和創新的能力。 符合資訊化和創新標準,實現國產化替代。 廠商需要相容國內主流軟硬體,包括但不限於國產化晶元、伺服器、作業系統、中介軟體等,滿足企業國產化需求。
納入標準說明:
1.滿足資料中平台所有廠商的能力需求;
2.從2023Q1到2023Q4,該市場的付費客戶數量為5個;
3.從2023Q1到2023Q4,該市場的合同收入為1000萬元。
廠家介紹:
科捷科技成立於2019年,是國內領先的大資料基礎軟體提供商,致力於自主可控的大資料基礎產品的研發和應用,推動企業全面實現資料驅動型組織的轉型公升級。 科恩資料湖倉一體自主研發的湖倉一體資料智慧型平台,具有雲原生、批量流式、效能低的特點,可為組織提供集資料管理、開發挖掘、運維於一體的一站式全流程資料能力建設解決方案。
產品服務介紹:
科捷科技核心產品科達湖倉一體是基於雲原生技術自主研發的資料庫產品,提供端到端的一站式大資料基礎軟體解決方案。 上層產品整合了Data Fabric、主動元資料管理、資料網格等技術,提供覆蓋資料全生命週期的一系列產品和功能,包括但不限於資料開發與管理、資料同步、實時計算、資料標準、資料質量、資料資產、資料服務等。
圖:科界科技旗下湖倉一體化資料智慧型平台KeenData湖倉一體示意圖。
供應商評估:
此外,科傑科技在查詢效能、易用性、儲存和計算分離等方面具有明顯優勢,此外,科捷科技的資訊創新生態系統完善,可充分適配國產軟硬體產品,在央企、能源、工業等行業積累了豐富的案例經驗。
KeenData LakeHouse 提供增強的湖倉一體引擎,具有高效的查詢效能。 科恩資料湖倉一體提供批量流整合能力,靈活支援批處理、實時計算、實時資料流批處理分析、批量流聯動轉換等場景。 除了靈活性之外,KeenData Lakehouse 還優化了 Lakehouse 查詢的效能。 例如,對於實時鏈路中小檔案過多導致的查詢效能問題,科恩資料湖倉一體可以根據預定的策略自動觸發小檔案的非同步壓縮、合併和清洗。 對於離線查詢,KeenData Lakehouse提供自動建檔服務,對經常查詢的資料列進行優先索引,提公升查詢效能。 在多維聚合分析中,Kojie通過預計算對檔案進行重新分配,以加速多維查詢效能。
基於統一元資料服務,提供統一的SQL查詢引擎,簡單易用,降低了開發者的門檻。 科捷科技基於ACID特性,保證元資料一致性,提供統一元資料服務,其中元資料引擎可以連線Oracle、MySQL、SqlServer、Elasticsearch、NoSQL等異構資料來源,相容Spark、Presto、Flink等多種資料處理引擎。 元資料聯合檢視支援對資料生態系統(如資料湖、資料倉儲和外部資料來源)進行統一管理。 在統一元資料的基礎上,KeenData Lakehouse通過統一的SQL查詢引擎支援跨源聯合查詢,降低了使用門檻,幫助使用者實現全域性資料的全域性分析。
KeenData Lakehouse支援存算分離架構,為客戶實現低成本、簡單的儲存。 在科恩資料湖倉一體中,資料可以儲存在HDFS、S3和OSS中,科捷科技提供統一的資源識別符號,使資料儲存格式對使用者完全透明,使用者可以直觀地使用資料資源。 針對儲算分離架構的效能,科捷通過元資料快取解決元資料重新命名等效能問題,通過資料快取提公升底層資料的呼叫效能。 此外,儲存計算分離架構支援計算資源彈性伸縮和冷熱分層資料儲存,降低資料儲存成本。
行業經驗豐富,得到業界廣泛認可。 科捷科技在儲存計算分離、湖倉一體化等領先技術架構的基礎上,融合DataOps和資料編織的理念,提出一套企業立體資料能力建設,包括多架構融合的湖倉一體化引擎、資料工程建設、資料自治、集中管控、去中心化賦能服務體系、 以及資料驅動型組織等,幫助企業實現組織驅動型組織轉型公升級。目前,科捷科技在中國聯通、中石化、中國一汽、國家電網、中國人壽、中國航天等央企、**能源、工業、金融、零售等行業積累了一批豐富的案例。 同時,科捷科技成為首批通過資訊通訊研究院雲原生湖倉一體融合能力專項評估的廠商。
資訊創新生態完善,完全適配國產化軟硬體產品。 科捷科技堅持自主研發,圍繞科恩資料湖倉一體一體化資料智慧型平台,在相關大資料相關領域申請了150餘項軟體作品和專利。 同時,科捷也在不斷完善資訊創新生態圈,完成了與麒麟軟體、飛騰、人民金倉等企業的技術相容認證,並通過了鯤鵬晶元、鯤鵬雲、鯤鵬科技全棧資訊創新標準認證,特別值得一提的是,科達湖倉一體產品通過了5款軟體產品的“可信卓越”權威認證。工業和資訊化部,重點介紹了科捷科技在大資料技術研發和產品安全可靠性方面的突出成果。積極推動資訊創新產業鏈協調發展的決心和實力。
典型客戶:
中金公司、中國第一汽車、中國石化勘探院.