LLaMA和GPT-3都是大規(guī)模的語言模型,具有許多相似之處。LLaMA主要由半監(jiān)督學(xué)習(xí)技術(shù)驅(qū)動,其能夠從大量非標(biāo)記數(shù)據(jù)中獲得知識;而GPT-3則使用了大量已標(biāo)記文本,通過反向傳播算法訓(xùn)練模型,能夠在一定程度上模仿人類行為。總的來說,LLaMA和GPT-3都具有出色的語言理解能力,但后者擁有更強(qiáng)大的處理能力。
LLaMA有4種不同大小的模型,分別是70億、130億、330億和650億參數(shù)。其中最小的LLaMA7B也用了超過1萬億個tokens來訓(xùn)練。Meta說,在很多基準(zhǔn)測試中,只有十分之一參數(shù)的LLaMA-13B比OpenAI的GPT3(175B)還要好。GPT3是ChatGPT所用的GPT3.5的前身。LLaMa-65B也可以和業(yè)界最好的Chinchilla-70B和PaLM-540B比拼。