Home [Paper] U-Net
Post
Cancel

[Paper] U-Net

U-Net

U-Net은 각각의 Object를 픽셀 단위로 예측한다. 각 픽셀마다 클래스를 할당하는 것이다. 이미지 내에 있는 각 물체들을 의미있는(Semantic) 단위로 분할(Segmentation)한다. 이미지가 주어졌을 때 (높이 x 너비 x 1)의 크기를 가지는 한 장의 분할 맵이다. 각 필셀마다 N개의 클래스에 대한 확률을 뱉어야 하므로 정답은 (높이 x 너비 x N)의 형태를 갖는다. 또한 각 픽셀마다 원-핫 인코딩 형식을 거친다. 즉, U-Net은 이미지 분할을 목적으로 제안된 End-to-End 방식의 Fully-Convolutional Network 기반 모델이다. 네트워크 구성 형태로 인해 U-Net이라는 이름이 붙여졌다.

image

image

image

image

FCN 특성상 입력(Input) 이미지 크기에는 제한이 없다. 하지만, U-Net 구조상 출력(Output) 이미지의 크기가 입력 이미지보다 작다. 해당 모델은 크기가 큰 이미지의 경우 전체를 사용하는 대신 Overlab-Tite 기법을 사용했다.

다음 이미지 Tile에 대한 Segmentation을 얻기 위해서는 이전 입력의 일부분이 포함되어야 한다. 이러한 이유로 Overlab-Tite라는 용어가 생겼다.

image

이미지 경계 부분 픽셀에 대한 Segmentation 위해 0이나 임의의 패딩 값을 채우는 것을 대신하여 이미지 경계 부분의 미러링을 이용한 Extrapolation 기법을 활용했다.

image

분할 작업에서 가장 중요한 과제는 동일한 클래스의 접촉 개체를 분리하는 것이다. 이미지 c, d와 같이 경계를 구분할 수 있어야 한다. 이를 위해 학습 데이터에서 각 픽셀마다 클래스 분포가 다른 점을 고려하여 가중치를 주어 학습에 반영하였다.

image

네트워크의 출력 값은 픽셀단위의 Softmax로 예측된다. 따라서 Loss Function은 Cross-Entropy가 된다. 다만, 거리를 고려하기 위해 가중치가 포함된다.

This post is licensed under CC BY 4.0 by the author.