作者丨李雙雙.
編輯丨海腰。
Assembly AI 由 Dylan Fox 於 2017 年底創立,致力於研究、訓練和部署領先的語音 AI 模型,供開發人員和產品團隊整合到他們的應用程式和服務中。 與國產“科大訊飛聽力”類似,執行語音轉錄、內容審核、金鑰提取等任務。
12 月 3 日,Assembly AI 宣布獲得 5000 萬美元 C 輪融資,以加速語音 AI 能力的增強。 本輪融資由 Accel 領投,知名投資者包括 Nat Friedman、Daniel Gross、Salesforce 前聯席首席執行官 Keith Block、Insight Partners 和 Y Combinator。
根據Smartbeast分析資料顯示,Assembly AI共進行6輪融資,總金額為1581億美元,Accel已連續投出4輪,參與前幾輪融資的知名投資者包括Stripe創始人John Collison、Smith Point、Technexus Venture Collaborative等。
Assembly AI 現在表示,與去年相比,其付費客戶群增長了 200%,達到 4,000 個品牌,每天處理約 2500 萬次 API 呼叫。
開發模型需要時間、金錢和計算能力,而小公司很難跟上,因此他們尋求 AI 即服務供應商的幫助,這些供應商負責建立模型的艱苦工作,並通過 API 收取訪問費用。 Assembly AI就是這樣一家公司,專門從事語音轉錄和文字分析服務,並享受了AI布局的紅利。
根據 IDC** 的資料,到 2023 年,全球在“以人工智慧為中心”的系統上的支出將達到 1540 億美元,同比增長 26%9%,到 2026 年將超過 3000 億美元。
今年10月,《麻省理工科技評論》對600家公司的調查發現,近一半的公司表示,未來一年在資料基礎設施和人工智慧方面的支出將增長25%以上。
“捲心菜價格”轉錄
Assembly AI旨在使開發人員能夠使用他們的AI模型來構建AI產品來分析語音資料,該公司表示,目前有超過20萬名開發人員使用該平台。 高階工程師 Afiz 在推特上寫道:“在 Assembly AI 中使用 5 行 Python,您可以為檔案生成字幕。 在使用者頁面中,使用者可以選擇不同的程式語言,通過官網簡單的**引文寫作,完成實時不同步語音轉錄、細化高光等功能。
據官網介紹,Assembly AI的三大核心產品分別是語音轉錄、智慧型音訊和狐猴。
語音轉錄是Assembly的基礎服務,其最新的自動語音識別AI模型是Conformer-2,該模型於7月發布。 據說該模型是使用 110 萬小時的英語音訊資料進行訓練的。 在這裡,Assembly AI 使用了一級方程式解說員對維斯塔潘在嘈雜環境中彎道超車的評估音訊,與上一代 Conformer-1 專有名詞相比,模型的錯誤率提高了 6%8%,字母數字識別率提高了 317%,抗噪性提高12%。
Assembly AI 的語音轉錄包括非同步轉錄、同步轉錄、說話人分類、自定義詞彙表、精確到單詞的時間線、填充影響內容和褻瀆過濾等功能。 目前,Assembly AI 支援 16 種中文語言的 ASR(自動語音識別),包括全球英語(包括帶口音的英語)、西班牙語、法語和中文。
智慧型音訊服務提供諸如總結語音、檢測惡意內容、識別主題、提取見解等服務。
組裝AI語音轉寫後,使用者可以通過其摘要、關鍵詞、自動章節等功能,對整體內容進行關鍵抽取。 使用者可以選擇不同風格和語氣的摘要,還可以在不到1分鐘的時間內得到識別記錄中的關鍵詞和重要概念。 其主題標籤遵循標準的 IAB 內容分類法,以識別語音轉錄中的不同主題。
它將使用者的資料安全需求與檢測和分析相結合。 一方面,Assembly AI提供涉及暴力、惡意言論、社會敏感話題等內容的內容審核檢測**,還可以檢測每句話中人物的情緒。 另一方面,Assembly AI 可以通過語音自動識別個人和公司名稱、位址、日期和位置。 使用者可以啟用 PII 編輯模型,將敏感個人資訊(如姓名、電子郵件位址等)替換為“ ”,或建立 PII 編輯的音訊,將敏感資訊替換為嗶嗶聲。
它的新框架狐猴在Conformer-2發布一周後發布。 據報道,使用者可以通過 API 呼叫總結會議、生成見解和審查超過 100 小時音訊的專案。 狐猴針對特定任務的精確度進行了優化,從簡短的客戶諮詢電話到長播客,使用者可以在其中提出問題並獲得答案,或者他們可以輸入自己的提示來生成輸出。 此外,狐猴以使用者給定的格式審查會議中的操作項,並將其分配給與會者。
目前,Assembly AI 允許免費使用者使用和探索,每月限制為 5 次非同步轉錄,上傳 100M 檔案。 除此之外,您需要支付大約 0 的語音轉錄訂閱費用每小時 65 美元(約 4 美元。每小時6元),實時轉錄約0時薪$74,988 (約5.)每小時4元)。與國內同類軟體相比,科大訊飛可聽到約19個語音轉錄每小時8元,組裝AI幾乎是“白菜價”。
智慧型音訊服務遵循從 0 開始的不同型號每小時 05 美元(約 0。每小時36元)到0每小時 3 美元(約 2 美元。每小時14元)。Lemur根據輸入輸出密碼的數量定價,預設版本約為0017 USD k 代幣(1 美分 k 代幣),輸出為 0$049 K 代幣(3 美分 K 代幣)。
2022 年 9 月,Assembly AI 推出了企業版產品,其中包含四個最大的用例:虛擬會議、虛擬會議和使用者。 其主要客戶包括華爾街**、Spotify、Grain、BBC、NBCniversal、VeeedIO、Dropbox、Runway 等。
除了知名報刊雜誌、音訊**用於語音轉錄外,小公司如流媒體**迴圈廣告內容檢測、呼叫跟蹤平台呼叫軌道呼叫彙總、會議平台螢火蟲AI的自動會議記錄和業務管理平台CLARI的營業收入記錄,都通過API稱為狐猴。
Assembly AI 聯合創始人兼 CEO Dylan Fox 在接受採訪時表示:“實現低成本和高利用率極具挑戰性,呼叫 Assembly AI API 的企業可以專注於構建新的 AI 產品、應用程式和業務,而不是專注於大模型開發和訓練。 ”
dylan fox
從 10,000 小時到 10,000,000 小時
Dylan Fox 畢業於喬治華盛頓大學,在與朋友一起創業時學習了軟體,這使他接觸到了機器學習和 NLP。
在 2015 年第一次創業失敗後,他在思科擔任高階軟體工程師,專門研究協作產品的機器學習。 同年推出的亞馬遜語音助手Alexa風靡全球,導致許多公司對將語音驅動程式整合到其產品中感興趣,思科也不例外,並開始尋找提供語音識別技術服務的公司。 自從他能夠用聲音向機器發出命令以來,迪倫就一直痴迷於語音識別。
Dylan 開始研究 ASR 的 API 示例,在這個過程中,Dylan 發現需要使用語音識別的專案使用的 AI 技術體驗很差、過時,這些廠商的技術要麼使用起來很複雜,要麼沒有 API。 Dylan舉例解釋道:“乙個**商家給我發了一張CD,為了獲得API,我需要與一群銷售人員交談。 ”
事實上,此時用於語音識別的機器學習方法在ASR的準確率上已經取得了突破,比如Microsoft的Cortana在2024年作為語音識別個人助理出現,識別錯誤率在6%左右,2024年3月,語音搜尋被開放進行精準識別,谷歌的語音搜尋也從2024年開始進行了多個版本的迭代。
由於技術先進,沒有好的用例,Dylan注意到語音識別領域的許多市場空白。
2024年,美國雲通訊服務提供商Twilio在紐約證券交易所上市,根據財報,其毛利率自2024年以來一直保持在50%以上。
這讓 Dylan 開始思考,“如果我們能利用最新的 AI 研究建立乙個 Twilio 風格的 API 公司會怎樣?”
2017 年,Dylan 獨自參加了 Assembly AI 專案的夏季 Y Combinator。 在那裡,他遇到了丹尼爾·格羅斯(Daniel Gross),“他完全理解我的意思,因為他也看到了ASR的市場。 丹尼爾·格羅斯(Daniel Gross)當時仍在蘋果公司工作,後來成為Assembly AI的風險合夥人。 此外,曾在 Twilio 工作了 9 年的前內容生成器高階總監 Matthew Makai 也成為了 Assembly AI 的副總裁。
daniel gross
當他創業時,迪倫最常見的問題是,“你會中止一家擁有數千名員工的大公司,而你只有乙個人嗎?”
起初,Assembly AI 的第一批模型訓練資料在 10000 小時左右,作為一家 AI 公司,迭代速度很慢。 Dylan 投入了大量精力來建立口碑,尋找需要使用 API 的潛在初創公司,並參加黑客馬拉松以揚名立萬。 在 Hacker News 上,Dylan 獲得了第一批對 Assembly AI 的 API 感興趣的使用者。 目前,最新模型 Conformer-2 擁有超過 100 萬小時的訓練資料,Dylan 表示將為該模型發布 1000 萬小時的訓練資料。
Dylan堅信ASR具有巨大的市場潛力,這也是他前進的原因。 “儘管人工智慧技術的實際準確性仍然令人困惑和困惑,但對它的需求仍然很大。 所以,我相信語音識別會有市場。 ”
市場機會是迪倫的“東風”。 2024年,受疫情影響,智慧型語音系統應用需求激增,大資料、多模識別、雲服務等技術觸及行業核心需求。 來自網際網絡的大資料、客戶共享資料、客戶非機密資料投入到裝配式AI訓練中。 同年 11 月,Accel、Daniel Gross、John Collison、Nat Friedman 等人向 Assembly AI 的天使輪投資了 5000 萬美元。
有數百家初創公司正在使用 Assembly AI 的 API 來快速擴大使用者群,例如 Call Rail,它使用 AI 讓人們查詢和了解企業可以變得更有效率,為全國數十萬家小企業提供 AI 對話平台。
有分析人士指出,Assembly AI在2024年9月發布公告,向高階市場進軍,但截至目前,Assembly AI尚未提供本地解決方案,以滿足官網價目表中**或醫療機構的敏感資料處理需求。