一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:
- 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
- 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
- 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
- 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
- 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。
此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。