創(chuàng )澤機器人 |
CHUANGZE ROBOT |
語(yǔ)言大模型由于在大規模通用L域數據預訓練通常缺乏對特定任務(wù)或L域的知識,因此需要適配微調。微調可以幫助模型更好地適應特定需求,如對敏感數據(如醫療記錄)的處理,同時(shí)不暴露原始數據。此外,微調可以提G部署效率、減少計算資源需求。指令微調和參數G效學(xué)習是適配微調的關(guān)鍵技術(shù)。
指令微調(Instruction Tuning)[21],是一種可以幫助語(yǔ)言大模型實(shí)現人類(lèi)語(yǔ)言指令遵循的能力,在零樣本設置中泛化到未見(jiàn)任務(wù)上的學(xué)習方法。指令微調學(xué)習形式與多任務(wù)提示微調相似,但與提示微調讓提示適應語(yǔ)言大模型并且讓下游任務(wù)對齊預訓練任務(wù)不同,其是讓語(yǔ)言大模型對齊理解人類(lèi)指令并按照指令要求完成任務(wù),即在給定指令提示的情況下給出特定的回應,其中提示可以選擇性包含一條解釋任務(wù)的指令。指令微調研究涉及指令理解、指令數據獲取和指令對齊等內容。
(1)指令理解,指語(yǔ)言大模型準確理解人類(lèi)語(yǔ)言指令的能力,是語(yǔ)言大模型執行指令完成任務(wù)的前提。為了增強對指令的理解,許多工作采用多任務(wù)提示方式對基于指令描述的大量任務(wù)集上對語(yǔ)言大模型進(jìn)行微調,如FLAN[50]、InstructGPT[21]等,這些模型在未見(jiàn)的任務(wù)上顯示出優(yōu)越的零樣本性能。
(2)指令數據獲取,指如何構建包含多樣性的任務(wù)指令數據。指令數據構建常見(jiàn)有三種方式:i)基于公開(kāi)人工標注數據構建,代表指令數據集包括1616種不同任務(wù)的Super-Natural Instruction[51]、2000種不同NLP任務(wù)的OPT-IML[52]。ii)借助語(yǔ)言大模型的自動(dòng)生成構建,如Unnatural Instructions[53],通過(guò)種子指令作為提示讓語(yǔ)言大模型生成新的指令描述和問(wèn)題,然后再輸入到模型讓其輸出回答。iii)基于人工標注方法,如ChatGPT在人工標注指令的基礎上通 過(guò)GPT-3、InstructGPT等在線(xiàn)平臺收集用戶(hù)真實(shí)指令數據。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 機器人代工廠(chǎng) 智能配送機器人 噴霧消毒機器人 圖書(shū)館機器人 導引機器人 移動(dòng)消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 消殺機器人 導覽機器人 |