Unet 卷積神經網路架構與 DIT
什麼是 UNet?
UNet (U-shaped architecture) 是一種卷積神經網路架構,廣泛用於圖像分割。可以把圖像分割想像成將圖像劃分成不同的區域或區塊,然後對每個區塊進行分類(例如,在照片中識別屬於汽車、樹木或天空的像素)。
一般人認為,深度網路的成功訓練需要數千個註釋的訓練樣本。U-Net 的卷積神經網路架構,最初為生物醫學影像分割設計。U-Net 的核心概念是利用資料增強技術,即使在只有少量帶標記的訓練樣本的情況下,也能有效地訓練深度網路。其架構的獨特之處在於它包含一個收縮路徑 (contracting path) 以捕捉上下文信息,以及一個擴張路徑 (expanding path) 以實現精確的定位。最終,U-Net 在多項生物醫學影像分割挑戰賽中表現出色,證明了它在處理少量訓練數據和快速精確分割影像方面的優勢。
以下是 UNet 的特別之處:
- U 型架構(因此稱為 “UNet”): 這個架構在視覺上像字母 “U”。它主要有兩個部分:
- 編碼器(收縮路徑): “U” 字的左側是編碼器。它逐步對輸入圖像進行降採樣,捕捉不同尺度的上下文資訊。這類似於自編碼器的編碼部分。
- 解碼器(擴張路徑): “U” 字的右側是解碼器。它逐步對來自編碼器的特徵圖進行升採樣,旨在恢復空間解析度,並生成與輸入圖像大小相同的分割圖。
- 跳躍連接: UNet 的一個關鍵特徵是跳躍連接(或快捷連接),它直接連接編碼器中的層與解碼器中對應的層。這些連接將來自編碼器的高解析度特徵圖傳遞到解碼器,有助於恢復在降採樣過程中可能丟失的細節資訊。這對於精確分割至關重要。
UNet 的主要應用:
- 醫學圖像分割: UNet 在醫學影像領域特別受歡迎,用於分割掃描圖像(如 MRI、CT 和顯微鏡圖像)中的器官、腫瘤和病灶等任務。
- 衛星圖像分析: 分割衛星圖像中的土地覆蓋、道路、建築物和其他特徵。
- 自動駕駛: 用於自動駕駛汽車的場景理解,包括分割道路、車輛、行人以及交通標誌。
- 通用圖像分割任務: 任何需要識別和劃分圖像中物體或區域的任務。
更簡單來說: 想像一下,你想為照片的不同部分著色(例如,將所有汽車塗成紅色,樹木塗成綠色,天空塗成藍色)。UNet 是一個強大的工具,可以學習自動完成這項工作。它觀察圖像,理解不同層次的上下文,然後精確地勾勒出每個區域並進行分類。
你可以在原始研究論文中找到關於 UNet 的更詳細資訊:
- U-Net: Convolutional Networks for Biomedical Image Segmentation: https://arxiv.org/abs/1505.04597


The U-Net (actually) explained in 10 minutes
Unet from Scratch || Unet Tutorial || Developers hutt