本站 1 月 26 日消息,Hugging Face 發(fā)布了兩款全新多模態(tài)模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M號稱是世界上最小的視覺語言模型(Video Language Model)。
據(jù)悉,相應(yīng)模型主要基于 Hugging Face團(tuán)隊去年訓(xùn)練的 80B參數(shù)模型蒸餾而成,號稱在性能和資源需求之間實現(xiàn)了平衡,官方稱 SmolVLM-256M / 500M 兩款模型均可“開箱即用”,可以直接部署在transformer MLX和ONNX平臺上。
具體技術(shù)層面,SmolVLM-256M / 500M 兩款模型均采用SigLIP作為圖片編碼器,使用 SmolLM2作為文本編碼器。其中 SmolVLM-256M是目前最小的多模態(tài)模型,可以接受任意序列的圖片和文本輸入并生成文字輸出,該模型功能包括描述圖片內(nèi)容、為短視頻生成字幕、處理PDF 等。Hugging Face 稱由于該模型整體輕巧,可在移動平臺輕松運行,僅需不到1GB的GPU顯存便可在單張圖片上完成推理。
而 SmolVLM-500M針對需要更高性能的場景而設(shè)計,Hugging Face稱相關(guān)模型非常適合部署在企業(yè)運營環(huán)境中,該模型推理單張圖片僅需1.23GB的GPU顯存,相對 SmolVLM-256M 雖然負(fù)載更大,但推理輸出的內(nèi)容更精準(zhǔn)。
本站注意到,兩款模型均采用Apache 2.0開源授權(quán),研究團(tuán)隊提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公開便于開發(fā)者下載和使用,具體頁面可(點此訪問)。