效能持續突破! 火山引擎ByteHouse推出向量檢索能力

Mondo 科技 更新 2024-02-22

隨著LLM技術的使用和實施,資料庫在向量分析和AI支援方面需要先進,向量資料庫和向量檢索可以“湧現”,迎來行業持續被關愛。 簡而言之,向量檢索技術和向量資料庫可以為 LLM 提供外部影象單元,並且該過程提供與問題和歷史答案一致的內容,幫助 LLM 返回更準確的答案。

不僅是LLM,向量檢索早已與OLAP引擎有關。 作為一款用於資料分析的軟體,OLAP可以快速高效地處理大量資料,並提供多維度的分析功能,而向量檢索可以幫助OLAP引擎進一步提高分析和檢索非結構化資料的能力。

近日,Volcano Engine的雲原生資料棧ByteHouse推出了高功能的向量檢索功能,支援多種向量檢索演算法和高效的實現環節,可支援大規模向量檢索場景,達到毫秒級查詢時延。

ByteHouse團隊長期以來一直致力於向量檢索技術。 據位元組豪斯技術專家介紹,“目前向量資料庫的發展主要有兩種思路,一是建立專用的向量資料庫,基於以向量為中心的思路來規劃向量資料和索引的儲存以及資本治理策略,查詢方式簡單,配套資料正規化有限; 二是在已有稀有資料資料庫的基礎上,擴充套件向量檢索能力,在現有稀有資料治理機制和查詢實現環節中加入向量索引維護和查詢實現邏輯。 現在,兩個想法正在創造彼此自己的想法,並且正在以完整的資料庫功能支援+高功能向量檢索的形式發展。 ”

ByteHouse 源自 ClickHouse,但 ClickHouse 存在向量索引重複讀取、冗餘等問題,低時延要求、高併發要求的向量檢索場景可用性較弱。

基於以上分析,bytehouse可以在向量檢索方面進行全面的創新。 首先,基於以向量為中心的思想,bytehouse構建了高效的向量檢索實現鏈結,結合索引快取、儲存層過濾等機制,使功能可以進一步破解。 此外,為了應對不同的應用場景,ByteHouse 支援 HNSW、FLAT、IVFFLAT 和 IVFPQ 等多種多常用向量索引演算法。 此外,新引入的向量索引支援當下的二級索引相干語義,新的實現環節也適配了已有的區間函式,從而降低了使用者應用門檻,學習舊書,使用者可以簡單地使用clickhouse現有的語義來應用高效能的向量檢索功能。

Bytehouse 向量來檢索相關元件。

在建立高效能向量檢索能力的過程中,bytehouse 首先避免了以下三個災難點:

一開始,列儲存結構讀取放大的問題。 為了減少不必要的資料讀取操作,bytehouse 在查詢實現和資料讀取層都進行了優化,Hamergetree 和 HauniqueMergetree 兩個引擎的堅實計畫為向量檢索提供了穩定性保證。 其次,新寫入的資料和服務重啟時會出現冷讀問題,導致功能穩定。 為此,bytehouse 引入了預載入機制,在構建後主動將索引載入到快取中,並支援對過時索引進行主動雕刻,避免資金過多占用。 最後,由於索引構建會消耗大量資金,為了減少構建操作對正常查詢功能的影響,bytehouse 引入了資金控制策略,允許使用者根據應用場景動態控制索引構建應用的資金,大大降低了原有鏈路的開銷。

基於開源軟體 Vectordbbench,帶有 MiLVUS 23.0 表示評估。

測試環境:1 個節點,80 個核心,376 GB 記憶體)。

在最終功能結果方面,ByteHouse 團隊基於業界最新的 Vectordbbench 測試資料進行了測試,並在 Cohere 1M 規範測試資料集上,Recall 98 可以達到與專用向量資料庫類似的功能。 在召回95以上的情況下,QPS可以達到2600以上,P99延遲在15ms左右,具有行業領先優勢。

效能優化一直是Bytehouse Center滿足資料處理和分析需求的目標之一。 不僅是向量檢索技術,流程不斷發展創新,位元組屋在查詢分析、資料匯入等多個方面也進行了極致優化,並取得了顯著的效能提公升,在降本增效的基礎上,持續協助企業更好地實現資料驅動的加速解決效率。

相關問題答案

    如何公升級位元組之家ClickHouse閘道器的效能?

    隨著數位化轉型的加速,企業面臨著收集 處理和分析海量資料的挑戰。ClickHouse因其分析速度快 效能高而被開發者廣泛使用。作為客戶端和資料庫之間的橋梁,閘道器在效能層面也起著關鍵作用。乙個好的閘道器不僅可以提高效能和可用性,還可以為系統提供安全性和可管理性。雖然主流的ClickHouse閘道器c...

    如何實現DataLeap資料測試平台?

    隨著短期生態的擴充套件和業務的發展,資料在業務中承擔的決策場景越來越多樣化,一些資料已經應用於資產損失 客戶投訴高等高風險場景,因此對資料質量的要求,尤其是高風險場景,要求非常高。許多 QA 資料 BP 團隊在保障過程中面臨以下痛點 .沒有標準化流程,管控能力薄弱 研發QA人力比例高達 ,因此QA採...

    美的建築科技攜手火山引擎,探索智慧園區新生態

    近日,美的建築科技與火山引擎發布了美的iBuilding Volcano Engine聯合打造的智慧園區解決方案,將美的建築科技軟硬體一體化服務與火山引擎雲技術底座深度融合,對上海抖音集團江灣城新辦公園區進行智慧型化改造,打造綠色低碳園區新地標。共創解決方案,雲 邊 端 能力相輔相成。智慧型建築中產...

    美的建築科技攜手火山引擎,探索智慧園區新生態

    在 雙碳 目標的背景下,當前城市建築高效 低碳 智慧型化發展已成為大勢所趨。然而,智慧建築的真正落地仍面臨諸多困難,如產業鏈長 參與方多,各環節相互隔離,缺乏協調。月日,繼上海抖音集團江灣城辦公新園智慧型化改造後,美的建築科技與火山引擎沉澱經驗 深化合作,聯合舉辦一流發布會發布美的iBuilding...

    伊利攜手Volcano Engine圓滿落幕“健康AI”生態創新大賽

    健康 AI 中老年健腦營養解決方案 數位化 智慧型化營養健康服務 AIGC健康共同體計畫.隨著 健康 AI 生態創新大賽的啟動,健康 AI 等蘊含科技能量 賦能健康產業的創新解決方案即將湧現。答案正在慢慢浮出水面。月日,由伊利集團與火山引擎聯合主辦的 健康 AI 生態創新大賽圓滿落下帷幕,上海博思騰...