隨著LLM技術的使用和實施,資料庫在向量分析和AI支援方面需要先進,向量資料庫和向量檢索可以“湧現”,迎來行業持續被關愛。 簡而言之,向量檢索技術和向量資料庫可以為 LLM 提供外部影象單元,並且該過程提供與問題和歷史答案一致的內容,幫助 LLM 返回更準確的答案。
不僅是LLM,向量檢索早已與OLAP引擎有關。 作為一款用於資料分析的軟體,OLAP可以快速高效地處理大量資料,並提供多維度的分析功能,而向量檢索可以幫助OLAP引擎進一步提高分析和檢索非結構化資料的能力。
近日,Volcano Engine的雲原生資料棧ByteHouse推出了高功能的向量檢索功能,支援多種向量檢索演算法和高效的實現環節,可支援大規模向量檢索場景,達到毫秒級查詢時延。
ByteHouse團隊長期以來一直致力於向量檢索技術。 據位元組豪斯技術專家介紹,“目前向量資料庫的發展主要有兩種思路,一是建立專用的向量資料庫,基於以向量為中心的思路來規劃向量資料和索引的儲存以及資本治理策略,查詢方式簡單,配套資料正規化有限; 二是在已有稀有資料資料庫的基礎上,擴充套件向量檢索能力,在現有稀有資料治理機制和查詢實現環節中加入向量索引維護和查詢實現邏輯。 現在,兩個想法正在創造彼此自己的想法,並且正在以完整的資料庫功能支援+高功能向量檢索的形式發展。 ”
ByteHouse 源自 ClickHouse,但 ClickHouse 存在向量索引重複讀取、冗餘等問題,低時延要求、高併發要求的向量檢索場景可用性較弱。
基於以上分析,bytehouse可以在向量檢索方面進行全面的創新。 首先,基於以向量為中心的思想,bytehouse構建了高效的向量檢索實現鏈結,結合索引快取、儲存層過濾等機制,使功能可以進一步破解。 此外,為了應對不同的應用場景,ByteHouse 支援 HNSW、FLAT、IVFFLAT 和 IVFPQ 等多種多常用向量索引演算法。 此外,新引入的向量索引支援當下的二級索引相干語義,新的實現環節也適配了已有的區間函式,從而降低了使用者應用門檻,學習舊書,使用者可以簡單地使用clickhouse現有的語義來應用高效能的向量檢索功能。
Bytehouse 向量來檢索相關元件。
在建立高效能向量檢索能力的過程中,bytehouse 首先避免了以下三個災難點:
一開始,列儲存結構讀取放大的問題。 為了減少不必要的資料讀取操作,bytehouse 在查詢實現和資料讀取層都進行了優化,Hamergetree 和 HauniqueMergetree 兩個引擎的堅實計畫為向量檢索提供了穩定性保證。 其次,新寫入的資料和服務重啟時會出現冷讀問題,導致功能穩定。 為此,bytehouse 引入了預載入機制,在構建後主動將索引載入到快取中,並支援對過時索引進行主動雕刻,避免資金過多占用。 最後,由於索引構建會消耗大量資金,為了減少構建操作對正常查詢功能的影響,bytehouse 引入了資金控制策略,允許使用者根據應用場景動態控制索引構建應用的資金,大大降低了原有鏈路的開銷。
基於開源軟體 Vectordbbench,帶有 MiLVUS 23.0 表示評估。
測試環境:1 個節點,80 個核心,376 GB 記憶體)。
在最終功能結果方面,ByteHouse 團隊基於業界最新的 Vectordbbench 測試資料進行了測試,並在 Cohere 1M 規範測試資料集上,Recall 98 可以達到與專用向量資料庫類似的功能。 在召回95以上的情況下,QPS可以達到2600以上,P99延遲在15ms左右,具有行業領先優勢。
效能優化一直是Bytehouse Center滿足資料處理和分析需求的目標之一。 不僅是向量檢索技術,流程不斷發展創新,位元組屋在查詢分析、資料匯入等多個方面也進行了極致優化,並取得了顯著的效能提公升,在降本增效的基礎上,持續協助企業更好地實現資料驅動的加速解決效率。