Fireworks AI 專注于人工智能的推理部分,其工具幫助企業(yè)微調(diào)和定制模型以滿足特定需求,允許企業(yè)使用其平臺訪問 100 多個模型。
圖源:Fireworks AI
創(chuàng)始人兼 CEO 喬琳畢業(yè)于復(fù)旦,是加利福利亞大學(xué)圣巴巴拉分校的計算機(jī)科學(xué)博士,曾是 Meta Pytorch 的負(fù)責(zé)人,在 LinkedIn 及 IBM 有過技術(shù)工作經(jīng)驗,團(tuán)隊成員內(nèi)大多來自 Meta、Google 等大廠,華人成員超 1/3。
Fireworks AI 選中了小而美的賽道,定制 FireAttention 推理引擎,與開源的 vLLM 相比,推理時間縮短 12 倍,降低使用成本,獲得眾多資本青睞。
Fireworks AI 成立于 2022 年 10 月,于 2024 年 7 月 8 日獲投 5200 萬美元 B 輪融資。該輪由紅杉資本領(lǐng)投,Benchmark、NVIDIA、Databricks Ventures、Howie Liu、前 Snowflake CEO Frank Slootman、AMD、Scale AI 首席執(zhí)行官 Alexandr Wang、前 Meta 首席運(yùn)營官 Sheryl Sandberg、MongoDB 跟投,截至本輪,F(xiàn)ireworks AI 估值 5.52 億美元。
推理速度提升 12 倍
Fireworks AI 認(rèn)為,人工智能的未來將是復(fù)合 AI 系統(tǒng),使用各種交互部分(多個模型、模態(tài)、檢索器、外部工具、數(shù)據(jù))來處理任務(wù)。
例如,電子郵件公司 Superhuman 在其平臺創(chuàng)建的 Ask AI 就是一個復(fù)合 AI 系統(tǒng),用戶只需要在收件箱里提出問題,不需要猜測關(guān)鍵詞或搜索郵件就能獲得響應(yīng)。
復(fù)合 AI 系統(tǒng)是多模型調(diào)用、檢索器與外部工具的系統(tǒng),也是 Fireworks 致力于達(dá)到的目標(biāo)。
紅杉資本評價:" 專業(yè)地構(gòu)建高性能推理堆棧、創(chuàng)新地實現(xiàn)復(fù)合 AI 系統(tǒng),F(xiàn)ireworks AI 正在給開發(fā)人員提供以前只有科技巨頭才能獲得的 AI 解決方案。"
一方面,F(xiàn)ireworks 擊中了企業(yè)務(wù)實的需求。當(dāng)前,F(xiàn)ireworks 為開發(fā)者、企業(yè)提供大模型微調(diào)、推理和部署等服務(wù)。在模型推理方面,F(xiàn)ireworks AI 就像一個專業(yè)團(tuán)隊為企業(yè)提供成熟的解決方案。
細(xì)分場景中,企業(yè)使用的大模型通常需要進(jìn)行一定程度的微調(diào)(fine-tuning),提升模型在任務(wù)上的表現(xiàn)。盡管大模型在通用任務(wù)上表現(xiàn)出色,但通過微調(diào),企業(yè)可以更準(zhǔn)確地解決自己的問題。
Fireworks AI 平臺中允許用戶通過 API 訪問超過 100 種不同的模型,包括大語言模型、圖像生成模型、音頻、嵌入和多模態(tài)模型,企業(yè)通過這些模型進(jìn)行微調(diào)和部署,從而將 AI 用于實際業(yè)務(wù)場景中。
Fireworks AI 能讓各類公司,尤其是缺乏 AI 硬件、基礎(chǔ)設(shè)施的企業(yè)低成本、高效地利用模型推出產(chǎn)品。在平臺內(nèi),企業(yè)用戶也可以用平臺內(nèi)有效工具將數(shù)據(jù)融入多種模型中進(jìn)行產(chǎn)品測試。
另一方面,開源的工具和方案雖然免費(fèi)易得,但 Fireworks AI 能讓部署和推理更具性價比。為此,他們提供三個方面的服務(wù)。
一是無服務(wù)器(Serverless)模型。他們定制了 CUDA 內(nèi)核的 FireAttention 推理引擎,在不犧牲質(zhì)量的前提下,使模型推理速度比 vLLM(開源的大語言模型推理與服務(wù)引擎)快四倍。FireAttention V2 對于用于 RAG、多輪推理和多模式應(yīng)用的長上下文提升,推理速度提高 12 倍。
圖源:Fireworks,F(xiàn)ireAttention 領(lǐng)先 vLLM,在 fp8 模式下約為 12.2 倍
" 可以是現(xiàn)成的開源模型,可以是我們調(diào)整的模型,也可以是客戶自行調(diào)整的模型,這三種類型都可以通過我們的推理引擎 API 提供服務(wù)," 喬琳描述。
官網(wǎng)顯示,F(xiàn)ireworks AI 為 100 多種模型提供極快的推理速度,及時推理廣泛使用和特定領(lǐng)域?qū)S玫?AI 模型,如 Meta Llama 3.1、Mixtral MoE 8x22b、Stable Diffusion3,針對延遲峰值、吞吐量和上下文長度進(jìn)行了優(yōu)化。而且,F(xiàn)ireworks 和英偉達(dá)一同成為首批接入零一萬物 Yi-Large 大模型的美國主流平臺。
圖源:Fireworks
二是微調(diào)。據(jù) TechCrunch,F(xiàn)ireworks AI 并不是從頭開始訓(xùn)練基礎(chǔ)模型,而是幫助微調(diào)其他模型以滿足企業(yè)特定需求。2024 年 3 月,F(xiàn)ireworks AI 宣布推出微調(diào)服務(wù),可以為包括 Mixtral 在內(nèi)的 10 種模型提供 LoRA 微調(diào)服務(wù)。
此前,Stability AI 使用其分布式推理服務(wù)將 SD3SD3-turbo 推向市場,將圖像處理速度提升至 0.37 秒 / 幅。
速度能提到多快?從另一案例來看,Cursor 公司使用其推測解碼 API 構(gòu)建了 " 快速應(yīng)用 "(Fast Apply)功能,通過部署特定的微調(diào)模型結(jié)合推測解碼技術(shù),實現(xiàn)每秒 1000 個 tokens 的處理速度,比傳統(tǒng)方法 Llama-3-70b 快了約 13 倍,比 GPT-4 推測編輯部署快約 9 倍。
值得注意的是,該平臺將模型大小限制在 70 億至 130 億參數(shù)之間,減少計算資源的消耗,從而降低使用成本。盡管小模型沒有大模型的知識范圍廣泛,但更適合處理特定場景的企業(yè)。因為其可以通過定制化的數(shù)據(jù)集和模型優(yōu)化提升精確度。
喬琳表示:" 類似規(guī)模的模型(70 億到 1000 億參數(shù)的模型)在質(zhì)量上可能會趨同,未來的關(guān)鍵在于,如何根據(jù)個人使用場景和工作負(fù)載定制這些模型。定制化將成為區(qū)分不同 AI 解決方案的主要因素,而不是模型的規(guī)模 "。
8 月的公告稱,該公司與 Cursor、Superhuman 等個別客戶合作,根據(jù)具體用例定制量化方案。
三是按需部署,讓客戶在 Fireworks 私有的 GPU 上運(yùn)行文本模型,按秒計費(fèi)。
它將自己定位為生產(chǎn)級基礎(chǔ)設(shè)施,已通過 SOC 2 Type II 和 HIPAA 的合規(guī)性評估,用戶可在其中按需使用。
據(jù)官網(wǎng) Blog,他們推出按需(專用)部署,讓開發(fā)人員可以配置自己的 GPU,這些 GPU 在專有的 Fireworks 服務(wù)堆棧(FireAttention)上運(yùn)行,能讓一個 H100 相當(dāng)于三個 H100 在 vLLM 的吞吐量,同時速度提高約 60%。
速度上去了,價格下來了。Fireworks AI 強(qiáng)調(diào),在相同配置的情況下,提速的同時,使用成本大幅降低,他們能給客戶更具競爭力的價格。如,同樣的 Mixtral 8x7b 模型中,通過減少 GPU 總數(shù),切換到 7.79 美元的 Fireworks H100,該平臺能節(jié)約 53% 左右的費(fèi)用。
圖源:Fireworks,在 Fireworks 運(yùn)行 GPU 與使用 vLLM 配置 GPU 的成本對比
于開發(fā)者而言,F(xiàn)ireworks AI 提供了一種更靈活的方式,讓他們能使用定制、小規(guī)模的模型,而不是資源密集型的完整版。正如他們的口號:" 從通用 AI 到專業(yè) AI。"(Go from generic to specialized AI)
它可以被視為一個模型托管平臺。開發(fā)人員可以接入 API 使用選定的模型來訓(xùn)練數(shù)據(jù),添加生成式 AI 功能。6 月初,F(xiàn)ireworks AI 推出定制模型,允許開發(fā)者導(dǎo)入和使用來自 Hugging Face 的預(yù)訓(xùn)練模型,利用平臺優(yōu)化。
據(jù)悉,F(xiàn)ireworks 提供了許多開源項目所不具備的自動化服務(wù),包括自動調(diào)整復(fù)雜性和性能優(yōu)化,簡化開發(fā)過程。
以上這系列生成式 AI 服務(wù)都需付費(fèi),除了企業(yè)方案外,從 Serverless 文本模型推理、圖像生成、微調(diào)服務(wù)到按需的 GPU 推理等 Fireworks 都將按需收費(fèi)。其中,開發(fā)人員可以最多部署 100 個模型。
7 月 11 日在獲得 B 輪融資時,F(xiàn)ireworks 表示,他們與 vLLM 相比推理時間縮短 12 倍,與 GPT-4 相比縮短 40 倍,平臺每天處理 1400 億個令牌,API 正常運(yùn)行時間為 99.99%。合作伙伴有初創(chuàng) Cursor、Liner,也有數(shù)字巨頭 DoorDash、Quora 等。
Fireworks 供應(yīng)商包含 MongoDB、Meta、Mistral、NVIDIA、AMD、AWS、Google 和甲骨文 Oracle Cloud,其中多數(shù)也是本輪的投資者。
復(fù)旦才女領(lǐng)隊,華人超 1/3
在震撼的 Mixtral MoE 8x7B 正式發(fā)布前 2 天,F(xiàn)ireworks 就是第一個托管它的平臺,給大模型的朋友圈留下深刻印象。憑借優(yōu)化性能的成果和開發(fā)者推薦的技術(shù)積累,F(xiàn)ireworks 在行業(yè)中的地位逐漸提升。8 月 15 日,F(xiàn)ireworks 登上福布斯 " 下一個十億美元創(chuàng)業(yè)公司 " 榜單。
其背后的技術(shù)團(tuán)隊實力不容小覷,只有 27 人,多數(shù)來自 Meta、Google、AWS、Zillow、Wayfair、Plaid 等公司,其中華人面孔占相當(dāng)比例,超過 1/3。并且,創(chuàng)始團(tuán)隊及工程師是前 Meta Pytorch、Google Vertex AI 的核心成員,其中就包括前 Vertex AI 主管趙晨宇。
創(chuàng)始人及首席執(zhí)行官喬琳(Lin Qiao)曾任 Pytorch 的負(fù)責(zé)人。她本碩畢業(yè)于復(fù)旦大學(xué)計算機(jī)科學(xué)專業(yè),是加州大學(xué)圣巴巴拉分校 CS 博士。
圖源:領(lǐng)英
喬琳擁有優(yōu)秀的工作履歷和出色的軟件工程經(jīng)驗,她在 IBM 硅谷實驗室擔(dān)任過顧問軟件工程師,曾任 LinkedIn 技術(shù)主管,也是前 Meta 的高級工程總監(jiān),領(lǐng)導(dǎo)過 300 多名 AI 框架和平臺的世界級工程師。
她在創(chuàng)立 Fireworks 前 5 年,一直與現(xiàn)公司聯(lián)合創(chuàng)始人兼 CTO Dmytro Dzhulgakhov 共事。Dmytro 在哈爾科夫理工學(xué)院讀研期間兩次入圍 ACM ICPC 世界決賽,是前 Meta 的技術(shù)主管,Pytorch 的核心維護(hù)者以及 Caffe2 深度學(xué)習(xí)框架的核心開發(fā)人員。
在 Meta 從業(yè),喬琳明顯能感受到的挑戰(zhàn)是簡化復(fù)雜性。喬琳在領(lǐng)英中描述這段職業(yè)經(jīng)歷是:" 我們已在所有 Facebook 數(shù)據(jù)中心、數(shù)十億移動設(shè)備和數(shù)百萬 AR/VR 設(shè)備中廣泛構(gòu)建部署了 Caffe2 和后來的 Pytorch"。不同類型設(shè)備的部署方式完全不同,所以在她看來,哪怕一秒鐘的數(shù)據(jù)延遲都將帶來極大影響。
Pytorch 是 Meta 推出的深度學(xué)習(xí)框架,已成為主流,被用于訓(xùn)練計算機(jī)視覺的 AI 模型如特斯拉的自動輔助駕駛、SD 生圖和 OpenAI 的 Whisper 等。與 Pytorch 一樣,Caffe2 也是一個兼具靈活性和可擴(kuò)展性的深度學(xué)習(xí)框架。這兩類框架與 Fireworks 能簡化開發(fā)流程、提升效率密切相關(guān)。
在紅杉的訪談中,喬琳回憶,她曾清楚地看到了 Pytorch 的 " 漏斗效益 ",從最初作為研究人員的工具,變?yōu)楦嗤ㄓ?AI 模型的運(yùn)行框架。
在 Meta 時,她與團(tuán)隊在尋求一種方法,讓用戶體驗變得簡單,隱藏起在后端復(fù)雜的內(nèi)容。她與團(tuán)隊延續(xù)理想主義的想法,Pytorch 前端 +Caffe2 后端,搭建了 PyTorch 1.0。原以為將 Pytorch 替換其他框架作為庫是一個簡單的半年項目,而這實際花費(fèi)了喬琳團(tuán)隊 5 年時間。
考慮到高效的數(shù)據(jù)加載和有效的 Pytorch 分布式推理、擴(kuò)展訓(xùn)練,他們必須從頭開始重建整個堆棧。" 它每天維持超過 5 萬億次推理,是一個巨大的規(guī)模 ",最終在喬琳團(tuán)隊離開時,Pytorch 成效顯著。
Pytorch 因簡單易用且功能強(qiáng)大為開發(fā)者所喜愛。有開發(fā)人員解釋:" 簡單理解深度學(xué)習(xí),就是用算法將數(shù)據(jù)訓(xùn)練到模型里存起來。自己用 C 語言寫可以實現(xiàn),用 Pytorch、TensorFlow 這樣的框架也可以實現(xiàn)。這 Pytorch 就是 Python 的庫,開發(fā)者要訓(xùn)練模型,只需要去調(diào)用一個一個‘方法’即可,不用自己實現(xiàn)復(fù)雜的算法。"
與 Pytorch 的設(shè)計思路類似,F(xiàn)ireworks 旨在做到為用戶提供創(chuàng)新的復(fù)合 AI 系統(tǒng),一種 " 開箱即用 " 的開放式模型,能通過微調(diào)和自定義部署實現(xiàn)定制能力,減少用戶需考慮的復(fù)雜性。
據(jù)介紹,復(fù)合 AI 系統(tǒng)的 agent 使用 LLM 來完成單個任務(wù),并共同解決復(fù)雜問題,這種方式允許開發(fā)者用最少的編碼創(chuàng)建多回合、多任務(wù)的 AI 代理工作流,降低成本和復(fù)雜性。
喬琳表示:"Pytorch 花了 5 年時間,而 Fireworks 的使命是加速整個行業(yè)的產(chǎn)品上市周期,將其從 5 年壓縮到 5 周,甚至是 5 天。"
此外,她在 2022 年創(chuàng)立 Fireworks 時就意識到:" 我們看到了 AI 行業(yè)中正在經(jīng)歷第一次轉(zhuǎn)型的公司,無論規(guī)模大小都正承受痛苦,源于沒有合適的人才、專業(yè)知識不足、缺乏軟件堆棧集、升級 GPU 的窘迫。" 她想要打破這一矛盾。
在她看來,低延遲、高質(zhì)量反饋是眾多客戶的要求。早期階段的 GenAI 公司找不到契合市場的產(chǎn)品,而隨時間推移,已經(jīng)有一個明確的趨向,那就是定制化的小模型,從大模型到專業(yè)模型的演變。
GenAI 與傳統(tǒng) AI 有顯著不同,它不需要從頭訓(xùn)練模型,使得通過小規(guī)模、高質(zhì)量的數(shù)據(jù)集進(jìn)行模型調(diào)整成為可能。資源消耗降低,更多公司和個人可以使用這項技術(shù),從而 GenAI 的普及度也得到提高。
于是喬琳創(chuàng)立 Fireworks,將其作為一個 SaaS 平臺用于 AI 推理和高質(zhì)量調(diào)優(yōu),實時應(yīng)用程序使用其小模型堆??梢垣@得低延遲,企業(yè)也可在其中定制高質(zhì)量服務(wù)。
她表示,F(xiàn)ireworks 在未來 5 年想要構(gòu)建一個提供全面知識訪問的 API。目前他們已經(jīng)提供超 100 個模型,涵蓋大語言模型、圖像生成、音頻生成、視頻生成等,而這些模型所涵蓋的數(shù)據(jù)有限,大量信息隱藏在無法訪問的公共 API 之后。為克服這一限制,F(xiàn)ireworks 致力于創(chuàng)建一個層來混合不同模型的公有 / 私有 API,實現(xiàn)對知識的全面訪問。
喬琳打了個比方:"OpenAI 正在提供專家的混合體,它有一個路由器,坐在幾個非常強(qiáng)大的專家之上,每個專家各司其職。而我們的愿景是,建立一個混合專家,它能接觸到數(shù)百名小專家,但他們更敏捷、解決特定問題的質(zhì)量更高。"
" 掘金賣鏟 " 的百億市場
喬琳在攻破 " 專注于簡單性 " 的大關(guān)前,Meta 有三個不同的深度學(xué)習(xí)框架,Caffe2(用于移動設(shè)備)、ONNX(用于服務(wù)器端)以及 Pytorch(用于研究),2018 年 5 月,F(xiàn)acebook(現(xiàn) Meta)正式公布 Pytorch1.0,允許開發(fā)人員從研究轉(zhuǎn)向生產(chǎn)而無需遷移。
這三類框架與另一位 AI 大神關(guān)系匪淺,那就是 Facebook 之前的 AI 工程開發(fā)主管賈揚(yáng)清。
"Caffe 之父 " 賈揚(yáng)清是 Pytorch1.0 共同負(fù)責(zé)人之一,同時也是神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn) ONNX 的創(chuàng)始人。從重合的履歷線來看,2018 年他與喬琳在三類框架成功的基礎(chǔ)上,共同領(lǐng)導(dǎo)創(chuàng)建了 PyTorch 1.0。
在《人物》的訪談中,賈揚(yáng)清提到,可擴(kuò)展性、輕便、增強(qiáng)計算模式、模塊化設(shè)計這四個因素是 Facebook 深度學(xué)習(xí)領(lǐng)域努力的方向。另外,他表示,AI 工程化的本質(zhì)就包括了云原生化、規(guī)?;蜆?biāo)準(zhǔn)普惠化。正如他加強(qiáng)開源框架的普適性和易用性,加速框架對實際應(yīng)用的效果。
" 未來可能不會出現(xiàn)大一統(tǒng)的深度學(xué)習(xí)框架,曾經(jīng) TensorFlow 的出現(xiàn)解決了大規(guī)模系統(tǒng)的問題,而當(dāng)超大規(guī)模系統(tǒng)用起來不方便時,開發(fā)者就會思考如何用更像 Python、更容易迭代的方式做算法開發(fā)和迭代,Pytorch 應(yīng)運(yùn)而生," 賈揚(yáng)清說," 解決上層 AI 應(yīng)用、科研時的問題才是更為重要的一點(diǎn) ",解決 GenAI 應(yīng)用復(fù)雜問題,加速開發(fā)。這與喬琳 Fireworks 的創(chuàng)業(yè)思路如出一轍。碰巧的是,他們的創(chuàng)業(yè)公司走入的也是同一賽道。
2023 年 7 月,Meta 的前 Pytorch 工程主管 Soumith Chintala 發(fā)推表示,他發(fā)現(xiàn) Pytorch 前員工創(chuàng)辦了一家機(jī)器學(xué)習(xí)基礎(chǔ)架構(gòu)公司 Fireworks AI。同時,他艾特了賈揚(yáng)清,表示他離開了阿里也創(chuàng)辦了另一家 ML Infra 公司。
圖源:Twitter
Soumith、賈揚(yáng)清、Dmytro 三人曾共同參與 2017 的機(jī)器學(xué)習(xí)頂會 NIPS,分別講演 Meta 的三個深度學(xué)習(xí)框架。有人以為會是賈揚(yáng)清創(chuàng)業(yè)和 Dmytro 造一個 Caffe3,沒想到的是,Dmytro 去了 Fireworks,賈揚(yáng)清和 ONNX 的聯(lián)創(chuàng)、etcd 的創(chuàng)始人成立了 Lepton AI。
在 ChatGPT 引起 AI 浪潮的年頭,賈揚(yáng)清沒有選擇大模型,而是選擇了它背后的生意,幫企業(yè)部署模型。跟 Fireworks 一樣,Lepton AI 提供算力、模型和服務(wù),包括通用模型的 API、平臺服務(wù)、對模型微調(diào)和部署的服務(wù)。
Lepton AI 的產(chǎn)品經(jīng)理魚哲強(qiáng)調(diào),他們的定價目的是確保用戶直接購買現(xiàn)成的解決方案比自己做更劃算。從單項價格來看,相同模型的服務(wù),Lepton AI 甚至優(yōu)惠一些。
圖源:Fireworks、Lepton AI 定價頁面對比
有分析指出,AI Infra 做的就是 " 掘金賣鏟 " 的生意,給大模型訓(xùn)練、部署和應(yīng)用時提供的基礎(chǔ)設(shè)施。AI 應(yīng)用的市場有多大,AI Infra 的機(jī)會就有多大。
據(jù) Precedence Research 數(shù)據(jù),AI Infra 的市場規(guī)模還將不斷增長,預(yù)計亞太地區(qū)增速最快,在 2024 年亞太地區(qū)達(dá)到 139 億美元的市場規(guī)模,而北美地區(qū)則占據(jù)最大的市場份額。
圖源:Precedence Research
未來,隨著各行業(yè)公司領(lǐng)略到 AI 提升生產(chǎn)力的優(yōu)勢,將會有更多強(qiáng)大的 AI Infra 來服務(wù)他們應(yīng)用的開發(fā)。
來源:創(chuàng)業(yè)邦