今天,我們來談談計算機視覺,也稱為CV(計算機視覺)。
CV是一種允許計算機“閱讀”和“理解”的技術。 人類通過眼睛感知環境,CV允許計算機模仿人類的視覺系統,通過為計算機配備眼睛(攝像頭)和大腦(演算法)來感知環境,使其能夠識別和理解影象中的物體、人臉、文字、場景等。
雖然CV技術已經比較成熟,在很多領域得到了廣泛的應用,但處理複雜的影象和場景在技術上仍然很困難。
以光學字元識別 (OCR) 為例,這是一項識別影象中的字元並將其轉換為文字的任務。 聽起來很簡單,但在實際應用中,由於影象的複雜性、視覺多樣性和資料質量等因素,很難保證字元識別的準確性。
例如,在香菸的32位噴碼識別中,由於菸盒背景複雜,反射現象頻繁,再加上噴碼可能存在刮擦、模糊、失真等問題,肉眼識別難度大,費力。 這就是OCR技術派上用場的地方。
傳統的通用OCR識別通常包括影象輸入、預處理、文字提取、文字識別等步驟,其核心在於通過預處理和文字提取將影象中的文字與背景分離,從而進行後續的文字識別。 這種方法更適合於簡單的印刷字元識別,無法處理複雜的背景,因此32位噴碼的單字識別準確率僅為50-80%。
Capernaum AI的壟斷巡檢智慧型輔助裝置通過自主研發的OCR演算法解決了這個問題。 根據捲菸專用編碼的特點,設計了深度神經網路模型,採用業界唯一的全光譜彩燈和多波段雙折射濾光片技術,適應各種複雜的背景和照明條件,自匹配最佳光線,突出文字區域,省去了傳統OCR技術中繁瑣的預處理和文字提取步驟, 並將整個識別過程簡化為“影象輸入、文字檢測、文字識別”,直接定位和識別文字,實現32位噴碼識別99的捲菸準確率98%。
在識別方面,Capernaum AI***識別系統可以通過訓練基於元學習的複雜場景識別模型,快速捕獲單個影象,利用深度學習演算法對文字區域進行定位和分割,識別單個字元,並對字元進行驗證、格式化和理解,以保證輸出資料的準確性和完整性,實現2秒內資訊的智慧型提取, 並識別不同製造商的不同格式和字型的文字資訊。即使面對字型磨損或印刷不清晰的情況,仍能保持95%的高識別率。
Capernaum AI憑藉對計算機視覺的深入研究和豐富的商業應用經驗,在OCR領域實現了領先的演算法和高識別精度。 公司專注於複雜場景下的多模態、多工通用人工智慧技術研究,自主研發了高度自主、高可靠性的視覺化預訓練大模型(VPLM),通過訪問針對特定場景的專用資料集進行訓練和調優,生成滿足各種場景需求的定製模型,保證產品的獨特性和競爭力。
隨著商用車技術的不斷進步,迦百農AI也將在更多領域帶來突破性的解決方案,推動智慧型化轉型。