Florence-2 (Microsoft)開源模型 – 影像識別

(英)輕量級視覺語言模型

模型在字幕、物件偵測、接地和分割等任務中展示了強大的零樣本和微調功能。

繼 Meta 推出多模態 open source 模型，Microsoft 也不甘後人，推出影像識別 Open source Florence-2 模型

儘管尺寸很小，但它所取得的結果與大許多倍的模型（如 Kosmos-2）相當。該模型的優勢不在於複雜的架構，而在於大規模的 FLD-5B 資料集，其中包含 1.26 億張影像和 54 億個綜合視覺註釋。