AutoSAM告知你怎樣在醫(yī)療行業(yè)更快更好開(kāi)發(fā)大模型
形成預(yù)訓(xùn)練Transformer(Generative Pre-trained Transformer,GPT)系列模型的順利標(biāo)明,假設(shè)在大范圍信息上進(jìn)行訓(xùn)練,大型話語(yǔ)模型在零樣件和非可視域中的少許快照任務(wù)上的功能與最新技術(shù)相當(dāng)。
受GPT的啟迪,Segment Anything(SAM)為圖片分割任務(wù)引入了1個(gè)“根基模型”。他們采集了1100萬(wàn)張圖片,并設(shè)計(jì)了1個(gè)半智能信息引擎,平均每張圖片形成約100個(gè)Mask,進(jìn)而總共形成10億個(gè)Mask。接著,SAM在該SAM-1B信息集上應(yīng)用Vision Transformer(ViT)Backbone訓(xùn)練1個(gè)大型可prompt模型。在23多個(gè)信息集上應(yīng)用各類(lèi)零樣件任務(wù)進(jìn)行評(píng)價(jià)后,SAM顯現(xiàn)出對(duì)大多數(shù)自然圖片的推廣前景。
但是,隨著SAM在醫(yī)學(xué)圖片行業(yè)引發(fā)人們的存眷,可以觀測(cè)到SAM在零樣件設(shè)置下不可較好地推廣到醫(yī)學(xué)圖片。將用自然圖片訓(xùn)練的模型轉(zhuǎn)換為醫(yī)學(xué)圖片的挑釁可歸因于2個(gè)首要原因:
外表上的較大差別:自然圖片和醫(yī)學(xué)圖片在色彩、亮度和對(duì)照度方面體現(xiàn)出明顯差別。因?yàn)樗鶓?yīng)用的成像形式,比如CT掃描、MRI或超聲波,醫(yī)學(xué)圖片往往擁有不同的特點(diǎn);
目的物體的模糊邊緣:醫(yī)學(xué)圖片時(shí)常顯現(xiàn)不同組織和器官之間的模糊邊緣。受過(guò)訓(xùn)練的醫(yī)學(xué)顧問(wèn)對(duì)解剖構(gòu)造有必須的了解,而且可能辨認(rèn)出針對(duì)僅依據(jù)自然圖片訓(xùn)練的模型來(lái)說(shuō)能夠不顯著的細(xì)微邊緣。
參考到采集與SAM-1B大小相當(dāng)?shù)尼t(yī)學(xué)分割信息集的艱難,開(kāi)拓預(yù)訓(xùn)練的SAM中能否有可用來(lái)醫(yī)學(xué)圖片分割的常識(shí)是至關(guān)主要的。
另外,基于prompt的分割能夠不太合適真正世界的運(yùn)用情景,原因如下:
為多類(lèi)供應(yīng)prompt很耗時(shí)。針對(duì)大多數(shù)公共醫(yī)學(xué)圖片分割的挑釁,它總是須要同時(shí)分割多個(gè)類(lèi)型。為每個(gè)類(lèi)型輸入確切的prompt能夠會(huì)變得麻煩,特別是當(dāng)器官和組織很小而且相互相鄰時(shí);
分割功能在較大程度上取決于prompt品質(zhì)。制造準(zhǔn)確的prompt須要特定行業(yè)的顧問(wèn)常識(shí),而這并不應(yīng)用于一切狀況。
參考到這類(lèi)限定,本文提出了一類(lèi)在醫(yī)學(xué)圖片信息集上微調(diào)SAM的直接方式,即解凍SAM編碼器的權(quán)重,并在其上增加預(yù)判Head進(jìn)行訓(xùn)練。解凍權(quán)重的原因是SAM是1個(gè)大模型,而且大多數(shù)權(quán)重由編碼器奉獻(xiàn)。依據(jù)試驗(yàn)結(jié)果,因?yàn)橛布枰?,?duì)編碼器妥協(xié)碼器進(jìn)行微調(diào)不單對(duì)一切開(kāi)發(fā)職員來(lái)說(shuō)不太容易,況且還會(huì)造成較差的分割功能。
另一方面,為了提升SAM在臨床運(yùn)用中的可行性,作家將SAM中的Mask解碼器更換為不須要prompt進(jìn)行訓(xùn)練和推斷的預(yù)判Head。本文評(píng)價(jià)了三類(lèi)不同型號(hào)的預(yù)判Head,含蓋視覺(jué)Transformer(ViT)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和線性層。ViT預(yù)判Head采取SAM Mask解碼器,命名為AutoSAM,由輕量級(jí)交叉注重力模塊和轉(zhuǎn)置卷積層構(gòu)成。作家移除prompt標(biāo)志并復(fù)制圖片嵌入以及其余輔助嵌入,以便解碼器可以同時(shí)為不同的類(lèi)形成多個(gè)Mask。
為了展現(xiàn)作家方式的標(biāo)志效益,作家在Few-Shot Head學(xué)習(xí)環(huán)境中進(jìn)行了試驗(yàn),此中僅應(yīng)用1或5次標(biāo)志的MRI掃描來(lái)微調(diào)模型。在公開(kāi)可用的醫(yī)學(xué)圖片分割信息集上獲取的結(jié)果凸顯標(biāo)明,與零樣件及時(shí)驅(qū)動(dòng)SAM相比,定制預(yù)訓(xùn)練SAM獲得了明顯改善。
另外,作家的方式在較大程度上優(yōu)于從Head開(kāi)始的訓(xùn)練和最超前的自督促學(xué)習(xí)方式,注重SAM在醫(yī)學(xué)行業(yè)的運(yùn)用后勁。二、有關(guān)工作2.1 大話語(yǔ)模型
在大型話語(yǔ)模型(LLM)顯現(xiàn)以后,許多工作努力于在LLM中引入圖片來(lái)完結(jié)多模態(tài)任務(wù)。比如,CLIP和ALIGN借用對(duì)照學(xué)習(xí)在嵌入空間中對(duì)齊網(wǎng)絡(luò)圖片及其標(biāo)題。他們發(fā)掘這個(gè)簡(jiǎn)潔的預(yù)訓(xùn)練任務(wù)可以較好地推廣到其余零樣件下游任務(wù),如視頻中的目的分類(lèi)和動(dòng)作辨認(rèn)。
另外,DALL-E通過(guò)1個(gè)用來(lái)形成零樣件文本到圖片的尺度自回歸變換實(shí)現(xiàn)了較好的泛化。但是,這類(lèi)大范圍的視覺(jué)模型未能解決全面的一切計(jì)算機(jī)視覺(jué)任務(wù),如圖片分割。針對(duì)大型圖片分割模型來(lái)說(shuō),獲得標(biāo)簽Mask的難度是主要。
SAM(Segment Anything)是第1個(gè)開(kāi)發(fā)可prompt的分割模型并自行在全面的信息集上對(duì)其進(jìn)行預(yù)訓(xùn)練的工作。給定恰當(dāng)?shù)膒rompt,SAM可能在沒(méi)有特定任務(wù)訓(xùn)練的狀況下為目的形成能夠的Mask。另一方面,DINOv2依據(jù)信息和模型大小對(duì)ViT模型的預(yù)訓(xùn)練進(jìn)行縮放,以形成通用的視覺(jué)特點(diǎn),借用這類(lèi)特點(diǎn)可以更容易地微調(diào)下游任務(wù)。2.2 為醫(yī)學(xué)圖片定制大模型
這一系列工作首要集中在對(duì)于特定分割信息集微調(diào)SAM,由于SAM在醫(yī)學(xué)圖片上體現(xiàn)出明顯的功能退步。MedSAM通過(guò)30多個(gè)醫(yī)學(xué)圖片信息集上的標(biāo)簽Mask形成的prompt,對(duì)SAM解碼器進(jìn)行了微調(diào),結(jié)果標(biāo)明,與應(yīng)用prompt形成的零樣件預(yù)判相比,功能獲得了改善。張凱東等人將基于低秩的微調(diào)方略運(yùn)用于SAN編碼器,并將其與SAM解碼器一塊訓(xùn)練,以定制SAM以施行腹部分割任務(wù)。吳俊德等人解凍SAM模型的權(quán)重,并在SAM中增加可訓(xùn)練的自順應(yīng)模塊,以減低從頭訓(xùn)練的本錢(qián)。三、本文方式3.1 背景
首先,作家將扼要簡(jiǎn)介SAM模型作為背景常識(shí)。SAM中有3個(gè)首要組件,
圖片編碼器
prompt編碼器
Mask解碼器
圖片編碼用具有與視覺(jué)Transformer(ViT)相近的架構(gòu),并在其自己采集的SAM-1B信息集上應(yīng)用MAE[10]進(jìn)行預(yù)訓(xùn)練。它們供應(yīng)了三類(lèi)不同比率的圖片編碼器ViT-H、ViT-l和ViT-V的權(quán)重,作為實(shí)時(shí)功能和確切性之間衡量的選項(xiàng)。圖片編碼器獲得所有大小的輸入圖片,并將其整形為1024×1024。接著將圖片轉(zhuǎn)換為擁有patch大小16×16和嵌入大小256的次序patch嵌入。經(jīng)過(guò)幾個(gè)擁有窗口注重和殘差傳遞的Transformer塊以后,圖片編碼器的流出擁有(64×64,256)的維度。
prompt編碼器同時(shí)支持稠密prompt(點(diǎn)、框、文本)和密集prompt(Mask)。稠密prompt被投影到prompt Token 中并和圖片嵌入連通,而密集prompt則應(yīng)用卷積嵌入并和圖片植入逐元素求和。
Mask解碼器首先在流出 Token 、prompt Token 和圖片嵌入上運(yùn)用雙向注重力模塊。接著通過(guò)2個(gè)轉(zhuǎn)置卷積層對(duì)圖片嵌入進(jìn)行上采樣,并對(duì)放大后的圖片嵌入與流出 Token 之間的逐點(diǎn)乘積進(jìn)行預(yù)判。3.2 Prediction Head
為了以有效的方法使SAM順應(yīng)特定的醫(yī)學(xué)圖片信息集,作家在SAM編碼器中保留權(quán)重,并附帶1個(gè)額外的特定任務(wù)預(yù)判Head進(jìn)行微調(diào)。另外,作家將預(yù)判Head設(shè)計(jì)為不可prompt的,而且唯獨(dú)的輸入是來(lái)自SAM編碼器的圖片嵌入。作家討論了3種最常見(jiàn)的系統(tǒng)構(gòu)造型號(hào),ViT、CNN和線性層。3.2.1 Vision Transformer
作家注重到SAM中的起始Mask解碼用具有ViT Backbone,因而作家可以對(duì)其進(jìn)行輕微竄改,以便預(yù)判Head不單不可prompt,況且可能借用SAM Mask解碼器中的權(quán)重。
如圖2所示,針對(duì)SAM解碼器,除了prompt Token 和圖片嵌入之外,還有可訓(xùn)練的流出 Token ,含蓋用來(lái)形成Mask的Mask Token 和用來(lái)預(yù)判Mask置信度的IoU Token 。
另外,Mask Token 含蓋前景Mask Token 和背景Mask Token 。流出 Token 與prompt Token 連通,作家將其命名為輔助嵌入。在雙向注重力模塊中,每一層都進(jìn)行自注重力和交叉注重力。對(duì)于交叉注重力,它含蓋從 Token 到圖片嵌入,以及從圖片嵌入到 Token (作為密鑰和值)。接著,通過(guò)2個(gè)轉(zhuǎn)置的conv層對(duì)圖片嵌入進(jìn)行放大,并選取前景Mask Token 與放大的嵌入進(jìn)行逐點(diǎn)乘積以獲取Mask。
相比之下,AutoSAM刪除輔助嵌入中的prompt標(biāo)志,使其不再是可prompt的模型。另一類(lèi)竄改是通過(guò)類(lèi)的數(shù)目復(fù)制輔助嵌入和圖片嵌入,以形成多個(gè)類(lèi)的Mask。每對(duì)的計(jì)算可以并行進(jìn)行,因而與形成額外Mask有關(guān)的開(kāi)支是可以忽視的。為1個(gè)推斷形成多個(gè)Mask的代替方式是簡(jiǎn)潔地在流出 Token 中增加更多前景Mask Token 。但是,作家選取第一類(lèi)方略是由于,直觀地說(shuō),一組輔助嵌入表示SAM中要分割的1個(gè)目的。AutoSAM獨(dú)立地為每個(gè)類(lèi)啟動(dòng)形成Mask。3.2.2 Convolutional Neural Network
這類(lèi)型號(hào)的預(yù)判Head是不少盛行的醫(yī)學(xué)圖片分割模型中解碼器的表示,如UNet、UNet++、TransUNet和Swin-UNetr。作家首先將嵌入的圖片Reshape為大小為(256,64,64)的特點(diǎn)圖。依據(jù)UNet中的構(gòu)造,CNN Head部有k個(gè)階段(k>=2),每個(gè)階段由Stride為1的conv層和Stride為2的轉(zhuǎn)置conv層構(gòu)成。
在試驗(yàn)部分嘗試了不同的k值,當(dāng)k>2時(shí),在k?2階段,轉(zhuǎn)置的conv層被更換為conv層,促使流出特點(diǎn)圖總是放大4x。最終,運(yùn)用kernel-size為1的逐點(diǎn)conv層來(lái)形成每個(gè)類(lèi)的預(yù)判Mask。3.2.3 Linear Layer
簡(jiǎn)潔的分類(lèi)Head總是用來(lái)評(píng)價(jià)在預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)的特點(diǎn)表示的泛化。在這項(xiàng)工作中,作家還運(yùn)用線性Head來(lái)測(cè)驗(yàn)?zāi)芊翊嬖赟AM編碼器提煉的頂級(jí)語(yǔ)義數(shù)據(jù)。與CNN相近,作家將嵌入的圖片從頭映照為2D特點(diǎn)圖,接著直接布置2個(gè)轉(zhuǎn)置conv層。接著,作家應(yīng)用2個(gè)kernel-size為1的conv層來(lái)替代MLP來(lái)獲取每個(gè)像素的分類(lèi)。四、 試驗(yàn)4.1 Dataset
ACDC(智能心臟診療挑釁)信息集是MICCAI 2017挑釁的一部分,該挑釁含蓋100名患者的心臟構(gòu)造的MRI掃描,每個(gè)患者有2個(gè)3Dvolumes。該信息集還供應(yīng)了左心室、右心室和心肌的顧問(wèn)分割Mask。
作家依據(jù)患者將MRI掃描隨機(jī)劃為三部分,訓(xùn)練集、驗(yàn)證集和測(cè)驗(yàn)集,比率為70:15:15。針對(duì)預(yù)處置,作家對(duì)每個(gè)volumes進(jìn)行歸一化,以便volumes中的一切像素全是零均值和單位方差。接著,作家將像素值轉(zhuǎn)換為RGB格式,并將volumes內(nèi)的每個(gè)切片存儲(chǔ)為PNG文件,由于SAM是在RGB圖片上訓(xùn)練的,作家的目的是維持輸入格式的一致性。在此此前,雖然MRI掃描是以3Dvolumes進(jìn)行的,但分割是在2D圖片上進(jìn)行的。
作家計(jì)算測(cè)驗(yàn)集中每個(gè)volumes的Dice分?jǐn)?shù)和平均對(duì)稱(chēng)外表距離(ASSD),接著從頭形成分割并反復(fù)試驗(yàn)。報(bào)表了4次的平均得分和規(guī)范差。4.2 訓(xùn)練細(xì)節(jié)訓(xùn)練的施行基于深度學(xué)習(xí)包PyTorch。應(yīng)用的GPU設(shè)施是NVIDIA特斯拉V100,內(nèi)存為16GB,比A100更容易訪問(wèn)。相比之下,SAM將訓(xùn)練散布在256個(gè)A100 GPU中。在訓(xùn)練流程中,作家對(duì)輸入圖片隨機(jī)運(yùn)用信息加強(qiáng),含蓋高斯噪聲、亮度竄改、彈性扭曲和轉(zhuǎn)動(dòng)。訓(xùn)練損失是交叉熵?fù)p失和Dice Loss的組合。用來(lái)刷新的優(yōu)化器算法基于Adam。學(xué)習(xí)率設(shè)置為0.0005,此中
。針對(duì)一切3個(gè)預(yù)判Head,單個(gè)GPU的最大batch-size為4。默認(rèn)的訓(xùn)練Epoch是120,由于作家觀測(cè)到在該Epoch數(shù)目以后驗(yàn)證集上的損失收斂。4.3 Baselines
為了驗(yàn)證作家提出的方式的有效性,作家在相近的設(shè)置下對(duì)許多基線方式進(jìn)行了試驗(yàn)作為較為。第一類(lèi)是從Head開(kāi)始訓(xùn)練UNet,這是獲取特定信息集的智能分割模型的最常見(jiàn)方式。其次,作家還嘗試了一類(lèi)自督促學(xué)習(xí)方式SimCLR,該方式被全面用來(lái)醫(yī)學(xué)圖片行業(yè)的標(biāo)簽高效分割。
該SimCLR基線含蓋2個(gè)階段,預(yù)訓(xùn)練和微調(diào)。
在訓(xùn)練階段,作家應(yīng)用訓(xùn)練集中的一切信息,而不應(yīng)用所有標(biāo)志數(shù)據(jù)。作家從輸入圖片中獲取2個(gè)隨機(jī)視圖,并應(yīng)用UNet編碼器將它們投影到特點(diǎn)空間中。接著運(yùn)用對(duì)照損失來(lái)最大化2個(gè)視圖的嵌入之間的一致性。
在微調(diào)流程中,UNet的編碼器用預(yù)先訓(xùn)練的權(quán)重進(jìn)行初始化,而且模型中的一切參數(shù)都在標(biāo)志信息上進(jìn)行訓(xùn)練。最終,作家在沒(méi)有所有微調(diào)的狀況下嘗試起始SAM,以解決將SAM自定論到特定信息集的必須性。對(duì)于prompt,作家應(yīng)用box-style的prompt,而且box坐標(biāo)是基于GT Mask計(jì)算的。4.4 試驗(yàn)結(jié)果4.4.1 Label-efficient Adaptation
當(dāng)在新的信息集上微調(diào)模型時(shí),為了減低標(biāo)志本錢(qián),期望微調(diào)僅在有限的標(biāo)志圖片的狀況下實(shí)現(xiàn)有期望的結(jié)果。因而,在表1中,作家只供應(yīng)了1或5個(gè)標(biāo)志的volumes來(lái)評(píng)價(jià)作家方式的信息效益。下列是從表1中得出的首要觀測(cè)結(jié)果。
1.首先,針對(duì)這兩類(lèi)設(shè)置,AutoSAM和CNN Head顯現(xiàn)出與一切其余方式相比最佳的分割精度。特別是當(dāng)只應(yīng)用1個(gè)標(biāo)志時(shí),AutoSAM的平均 Dice 分?jǐn)?shù)為39.32,幾乎是UNet和SimCLR的兩倍。這供應(yīng)了令人信服的證據(jù),證實(shí)在SAM編碼器中學(xué)習(xí)到的特點(diǎn)充足通用,可以轉(zhuǎn)化到醫(yī)學(xué)圖片中。
就統(tǒng)計(jì)明顯性而言,很難說(shuō)AutoSAM或CNN能否擁有更高的 Dice 分?jǐn)?shù),為甚麼這也象征著SAM的強(qiáng)大威力首要是由圖片編碼器而不是Mask解碼器提煉的代表性特點(diǎn)的結(jié)果。另外,作家觀測(cè)到AutoSAM與CNN Head部相比擁有更低的ASSD。這類(lèi)差別能夠歸因于SAM解碼器的訓(xùn)練,該解碼器旨在形成集中在prompt位子附近的目的的Mask。相比之下,CNN Head部沒(méi)有從SAM解碼器加載數(shù)據(jù),造成ASSD值更高。
2.其次,與AutoSAM和CNN編碼器相比,縱然僅用1個(gè)volumes訓(xùn)練,SAM也體現(xiàn)出更差的分割功能,這有力地支持了微調(diào)SAM是解決其在醫(yī)學(xué)圖片信息集上功能下落的有效方式。但是,也注重到,SAM的ASSD比其余方式低得多。這一觀測(cè)結(jié)果有助于SAM受益于嵌入框prompt中的局部數(shù)據(jù)。該定位數(shù)據(jù)迫使預(yù)判Mask位于框領(lǐng)域周邊。另一方面,SAM的LV Dice 分?jǐn)?shù)終究為0。依據(jù)圖4,作家可以發(fā)掘Myo是1個(gè)由其余2個(gè)類(lèi)包圍的細(xì)圓,邊緣也很模糊。因?yàn)镸yo的框靠近RB的框,因而Myo實(shí)際上被誤認(rèn)定是RV的一部分,因而一切LV領(lǐng)域都被預(yù)判為Myo。
3.如表1所示,線性預(yù)判Head擁有比其余2個(gè)預(yù)判Head差得多的功能。特別是,當(dāng)標(biāo)志信息的數(shù)目從1個(gè)加大到5個(gè)時(shí),線性Head不可獲取較大的分割精度提升。作家認(rèn)定,這一結(jié)果是因?yàn)闃O輕的架構(gòu)。當(dāng)SAM編碼器形成的視覺(jué)特點(diǎn)不擁有充足的醫(yī)學(xué)圖片語(yǔ)義數(shù)據(jù)時(shí),這類(lèi)簡(jiǎn)潔的預(yù)判Head會(huì)造成模型本領(lǐng)較弱,并能夠顯現(xiàn)不夠。4.4.2 Ablation Study
作家進(jìn)行的第一項(xiàng)融化研發(fā)是對(duì)于CNN預(yù)判Head中的深度數(shù)目怎樣影響微調(diào)結(jié)果。在表2中, Dice 隨著深度的加大而加大,直到 Depth=4為止。如上所述,線性預(yù)判Head能夠會(huì)顯現(xiàn)裝配不夠的問(wèn)題。當(dāng)Depth< 4時(shí),更大的預(yù)判Head會(huì)帶來(lái)更好的模型本領(lǐng)。但是,當(dāng)Depth > 4時(shí),從加大預(yù)判Head中的參數(shù)所獲取的益處開(kāi)始減小。在這一點(diǎn)上,圖片嵌入或預(yù)判Head架構(gòu)的品質(zhì)變成決議功能的更主要的原因。
作家還評(píng)價(jià)了AutoSAM和Encoder+CNN在SAM供應(yīng)的不同編碼器尺寸(即ViT-b、ViT-l和ViT-h)下的功能。
表3顯現(xiàn),往往較大的模型大小會(huì)在下游任務(wù)上形成更好的微調(diào)結(jié)果,但AutoSAM對(duì)編碼器架構(gòu)的敏感性不如Encoder+CNN。當(dāng)應(yīng)用ViT-h Backbone時(shí),CNNHead部的 Dice 得分顯著高過(guò)AutoSAM,雖然它仍舊有更高的ASSD。表3也可以作為對(duì)于效益和功能之間切換的考慮,由于與ViT-b相比,ViT-h造成更長(zhǎng)的微調(diào)時(shí)間和更高的推斷延緩。
最終,作家在圖5中繪制了應(yīng)用更多標(biāo)志信息進(jìn)行微調(diào)的結(jié)果。作家發(fā)掘,當(dāng)標(biāo)志的卷數(shù)小過(guò)10時(shí),AutoSAM僅比UNet(沒(méi)有額外數(shù)據(jù))和SimCLR(在同一信息集上預(yù)訓(xùn)練的常識(shí))擁有優(yōu)勢(shì)。這是由于SAM是在大范圍圖片信息集上預(yù)訓(xùn)練的,而且圖片編碼器可能提煉語(yǔ)義數(shù)據(jù),這有利于下游的分割任務(wù)。
但是,因?yàn)镾AM從未接觸過(guò)醫(yī)學(xué)圖片,因而這類(lèi)語(yǔ)義數(shù)據(jù)能夠是有成見(jiàn)的,而且特定于自然圖片。仿佛有了充足的標(biāo)志信息,從自然圖片中獲取的常識(shí)在將預(yù)判Head專(zhuān)門(mén)用來(lái)醫(yī)學(xué)圖片行業(yè)時(shí)會(huì)形成負(fù)面影響。因而,為了為一切圖片模態(tài)創(chuàng)建1個(gè)真實(shí)的“根基模型”,將來(lái)須要1個(gè)大范圍的醫(yī)學(xué)圖片信息集來(lái)預(yù)訓(xùn)練SAM。五、總結(jié)
雖然SAM在自然圖片中獲得了順利,但怎樣有效地將SAM順應(yīng)散布外的醫(yī)學(xué)圖片信息集仍舊是1個(gè)懸而未決的問(wèn)題。與現(xiàn)有工作不同,本文為解決這一問(wèn)題供應(yīng)了1個(gè)新的視角,即解凍SAM圖片編碼器中的權(quán)重,并增加1個(gè)輕量級(jí)的任務(wù)專(zhuān)屬預(yù)判Head。
為了促成全面的運(yùn)用,作家將SAM竄改為不可prompt的,并可能形成多類(lèi)Mask。作家開(kāi)拓了三類(lèi)型號(hào)的預(yù)判Head,ViT(稱(chēng)為AutoSAM)、CNN和線性層,此中AutoSAM和CNN Head在Few-Shot Head學(xué)習(xí)設(shè)置中顯現(xiàn)出有期望的結(jié)果。僅用1個(gè)標(biāo)志進(jìn)行微調(diào)比框prompt的SAM擁有更好的功能,這一事實(shí)證實(shí)了為新信息集定制SAM的必須性。因?yàn)闃?biāo)志的數(shù)目有限,作家的方式優(yōu)于從Head開(kāi)始訓(xùn)練和自督促學(xué)習(xí)基線??紤]