본문 바로가기

Deep Learning/Convolution Neural Network

Computer Vision Task 개요

▶ 개요

Computer vision에는 크게 4가지의 task가 존재합니다. 

[Figure 1] Computer Vision Task

1. Semantic Segmentation

  • 이미지 안의 모든 픽셀(pixel)들에 대해서 classification(or categorize)을 합니다.
  • (예시) [Figure 1]에서의 'senmantic segmentation'은 각  픽셀이 GRASS, CAT, TREE, SKY인지를 결정하는 픽셀 분류 문제입니다.

2. Classification (+ Localization)

  • 하나의 이미지에 대한 label 예측(→ classification)뿐만 아니라 이미지 내에 하나의 object(→ Single object)에 대해 bounding box(bbox)로 위치( → localization)도 나타냅니다.
  • (예시) [Figure 1]에서의 'classification + localization'은 고양이 이미지에 대해서 CAT으로 예측함과 동시에 CAT의 위치를 bbox로 표시하였습니다.

3. Object detection(객체 인식)

  • 이미지 내에 여러 개의 객체(→ multiple object)존재와 위치를 bounding box(bbox)로 나타냄과 동시에 각 bbox에 해당하는 객체의 클래스를 예측하는 task입니다.
  • '(Senmantic / Instance) Segmentaion'과의 차이점
    • Object detection위치 기반으로 객체를 탐지하는 반면, Segmentation픽셀을 기준으로 객체를 식별합니다. 
  • (예시) [Figure 1]에서의 'Object detection'은 3개의 객체(DOG, DOG, CAT)에 대해서 bbox를 예측함과 동시에 각 bbox에 해당하는 객체의 클래스도 식별하였습니다.

4. Instance Segmentation

  • 이미지 내에 러 개의 객체(→ multiple object)픽셀(pixel)을 분할하여 각 객체를 식별하고 각 객체에 대한 클래스를 예측합니다.
  • Segmentation은 크게 'Senmantic Segmentation'과 'Instance Segmentation'으로 분류할 수 있으며 2개의 차이점은 다음과 같습니다.
    • Senmantic Segmentation은 픽세들이 각 클래스에 대해 포함 여부를 확인합니다( → 클래스에 포함되면 $1$, 아니면 $0$). 따라서, 같은 클래스에 속하는 객체끼리는 서로 구분이 불가능합니다.
    • 반면, instance segmentation은 각 pixel별로 각 클래스별 포함 여부를 확인하는 것이 아닌 객체가 존재하는지 여부를 계산합니다. 또한, 두 객체가 같은 클래스에 속하더라도 구별이 가능합니다.
  • (예시) [Figure 1]에서의 'Instance Segmentation'은 3개의 객체( DOG, DOG, CAT )에 대해서 픽셀을 기준으로 객체를 식별함과 동시에 각 객체별 클래스도 예측하였습니다.

본 글은 computer vision의 주요한 4가지 task에 대한 개요를 살펴보았습니다.

추후에 Object Detection과 Semantic/Instance Segmentation에 대해서 자세하게 살펴보고자 합니다.


 

'Deep Learning > Convolution Neural Network' 카테고리의 다른 글

Semantic Segmentation (1): Sliding Window  (0) 2024.03.20
LeNet-5  (0) 2024.03.19
Convolution Layer 개요  (0) 2024.03.18