如果有一款小於你手掌大小的裝置,你可以用這個裝置隨時隨地記錄你周圍的聲音,並能將它們轉換成文字與大型語言模型進行交流,那麼你會考慮買乙個嗎? 那如果我再告訴你,你甚至可以自己手工製作這樣的裝置,成本甚至不到100美元。
是的,這相當於用手揉搓 AI PIN 碼。
Adam C.,英國首個法醫調查平台Cado首席執行官h.發布乙個**,說明他只用了一塊Coral AI微開發板和開發板可選的藍芽模組來製作語音採集器,Adam稱這款裝置為“ADEUS”。 這個詞在西班牙語中的意思是再見,在這個裝置中,它的意思是“告別網路和監管”,指的是網際網絡公司無法通過裝置收集使用者的個人私隱。
從上圖可以看出,該板包含乙個攝像頭和乙個麥克風,MCU(微控制器)稱為 NXP IMX RT1176 基於 ARM 架構,使用兩個處理器,Cortex-M4 和 Cortex-M7。 坦率地說,這兩款處理器都是 Cortex 系列中的低端處理器,並沒有提供太多的計算能力。
說到這裡,你可能會想“啊,這不是胡說八道嗎,這個壞了的MCU就夠了”。 這麼說,就意味著你在問重點,讓我們把重點放在看起來與其他晶元明顯不同的晶元上,上面刻著大大的“珊瑚”標誌。 這是乙個 CORAL AI EDGE TPU 協處理器,提供 4 個頂部(資料結構為 INT8)的計算能力。 TPU是谷歌提出的乙個概念,全稱是張量處理單元,是專門為深度學習和機器學習任務而設計的。
Coral AI Edge TPU不是另一種TPU,它被稱為“Edge TPU”,意思是邊緣TPU。 它的相容性和效能遠不如TPU,但它具有低功耗和小尺寸。 當然,每個神經網路模型都有不同的效能要求,面對像 Adam C 這樣的東西h.安裝在 Adeus 中的這個開源模型通常效能不會太差。
那麼剩下的就很容易了,亞當 Ch.我在網上找到了乙個開源的AI語音轉文字軟體,將ADEUS連線到電腦上,最後進行了安裝,一切都完成了。 如果需要,可以為開發板的攝像頭安裝開源的 AI 軟體,例如識別人臉、物體等。 看到這裡你應該明白了,現在做電子產品的邏輯是,整個過程都依賴於人工智慧,所有元件都服務於人工智慧,只要硬體算力到位,功能最終就能實現。
如果不使用人工智慧技術,就很難恢復“錄音和轉換文字”的過程。 您需要的第一件事是可以拾取聲音的模組,通常是麥克風。 但是,麥克風捕獲的聲音是模擬訊號,因此要捕獲的模擬訊號可能需要經過一些前處理,例如濾波、放大等,以確保質量和適應性,並且每一步都需要晶元。
最重要的事情來了,它將模擬訊號轉換為數碼訊號,以便晶元可以進行數字訊號處理。 下一步是處理數碼訊號,例如降噪和特徵提取,以準備輸入到語音識別引擎。 在通過語音識別引擎傳遞這些數碼訊號後,需要將轉錄的文字輸出到合適的儲存裝置或通過通訊介面傳送。
如果你比較一下,你會發現“原來人工智慧可以節省很多東西! ”
說實話,100美元還是有點太高了。 所以亞當 Ch.未來,Raspberry Pi Zero將用於製造Adeus。
Raspberry Pi Zero也不例外,聊天應用Squad的首席技術官Ethan Sutin也有類似的想法,但他想要的是隨時隨地與大型語言模型進行交流。 於是他利用蘋果的M1晶元,結合OpenAI的Whisper技術,製作了一款可以“揣在口袋裡”的Chat GPT3。5。
Apple 的 M1 晶元和麥克風陣列 Whisper 是用於自動語音識別 (ASR) 和語音翻譯的預訓練模型。 Whisper 的理論基於 OpenAI 的 Alec Radford 等人的“通過大規模弱監督進行魯棒語音識別”。 Whisper 模型在近 700,000 小時的標記資料上進行了訓練,展示了其有效泛化的能力,而無需對許多資料集和域進行微調。
這個裝置上沒有開關,所以如何啟用Whisper也需要人工智慧的幫助。 Ethan 使用 Silero,即聲音活動檢測 (VAD),並選擇它,主要是因為 Silero 使用的模型,JIT,它只需要 1MB 位元組的大小,而可攜式裝置最缺乏的就是容量。
在了解了這兩個關鍵之後,你會發現 Ethan 的方法比 Adam C 的方法更好h.很簡單,該裝置使用 silero 來識別是否有聲音傳到麥克風,然後使用耳語模型將聲音轉錄為文字。 通過手機將轉錄後的文字輸入到大語言模型中,最終獲得大語言模型的反饋,從而實現隨時隨地與大語言模型的交流。 所以從本質上講,他也在利用人工智慧來製造硬體。 蘋果的 M1 晶元**售價約為 40 美元,換句話說,它比 Coral AI 便宜很多。
蘋果M1晶元OpenAI首席執行官Sam Altman表示,現在有一家市值10億美元的公司,只有一名員工,其核心競爭力是人工智慧。
未來,尤其是在智慧型穿戴領域,很有可能成為一種“需要什麼功能,準備多少計算資源”。 例如,他們之所以為上述兩款裝置選擇樹莓派和蘋果M1晶元,就是因為這兩款裝置提供的記憶體、視訊記憶體和算力滿足了需求。 一般來說,GPU的記憶體主要用於儲存模型引數,計算中間結果,以及對模型優化進行相關操作。 系統的記憶體主要用於儲存訓練資料、模型引數和一些執行時資料。 在訓練大型深度學習模型時,必須確保系統記憶體和視訊記憶體足夠大,以容納資料和模型引數。
樹莓派 我們可以簡單地將這種硬體趨勢簡化為一句話:道生一,一生二,二生三,三生萬物。 這些偉大發明家的本質不在於他們擁有多麼精湛的工藝,而在於他們如何巧妙地將人工智慧融入到硬體產品中。 未來,隨著技術的不斷進步和創新,我們有望迎來智慧型裝置生產成本大幅降低的時代。 屆時,各種先進的感測器、微處理器和人工智慧元件將變得更加平易近人,讓手工藝愛好者甚至普通大眾都能以相對較低的成本製作出自己功能豐富的智慧型硬體產品。 在開源社群的支援和共享經濟的發展下,製作智慧型裝置所需的軟體資源和技術教程也將變得觸手可及,進一步降低進入門檻。