[2404.05961] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

LLM2Vec,這是一種將僅解碼器的大型語言模型 (LLM) 轉換為功能強大的文本編碼器的方法。LLM2Vec 由三個步驟組成:啟用雙向注意力、遮罩下一個令牌預測和無監督對比學習。通過將 LLM2Vec 應用於三個流行的 LLM 並在單詞和序列級任務上評估它們,該研究展示了與僅編碼器模型相比的卓越性能,並在海量文本嵌入基準 (MTEB) 上實現了新的最先進水準。主要發現包括在單詞級任務上優於僅編碼器模型,在MTEB上達到新的無監督狀態,以及通過監督對比學習實現最先進的性能。該研究強調了僅解碼器 LLM 作為通用文本編碼器的潛力,只需極少的適應。LLM2Vec 方法具有參數效率,不依賴於標記數據,並且在生成豐富的上下文化標記表示方面非常有效。

  • 大型純解碼器語言模型 (LLM) 是 NLP 任務中最先進的由於因果注意力限制,LLM 在文本嵌入任務中的採用速度緩慢引入 LLM2Vec 將僅解碼器的 LLM 轉換為文字編碼器LLM2Vec 包括啟用雙向注意力、遮罩下一個令牌預測和無監督對比學習LLM2Vec 轉換模型在字級和序列級任務上的卓越性能在海量文本嵌入基準 (MTEB) 上實現新的最先進的技術只需極少的調整即可揭示僅解碼器 LLM 作為通用文本編碼器的功能
  •  
  • 使用LLM2Vec將任何僅解碼器的大型語言模型(LLMs)轉換為強大的文本編碼器的方法包括三個簡單步驟:1。首先是啟用雙向注意力,其次是遮罩下一個令牌預測,最後是無監督對比學習。LLM2Vec的應用於三個流行的LLMs,並在英文單詞和序列級任務上評估轉換後的模型,表現優於僅編碼器模型,並在大文本嵌入基準(MTEB)上實現了新的無監督最先進表現。此外,結合LLM2Vec和監督對比學習,我們在僅在公開可用數據上訓練的模型中實現了MTEB的最新最先進表現。13。LLM2Vec不需要標記數據,並且在數據和參數效率方面非常有效。

Paper Link

GitHub Link


Popular Tags