Pytorch

Computer Vision

술임 2025. 5. 10. 19:05
컴퓨터 분야에서 시각을 연구하는 분야

 

Recognition

Classification

이미지 input에 대해서 label 예측하는 것
 
CNN 모델을 중첩해서 사용하거나, 응용하여 모델들을 구현
 
ex) LeNet, AlexNet, GoogleNet, ResNet, VGG
 

Semantic Segmentation

모든 픽셀의 label을 예측하는 Task
 
한 장에 사진에서 여러 개의 label이 존재 가능
 
한 장의 이미지에서 대상을 구체적으로 정의하지 않고, 큰 분류로 구분
 
ex) DeepLabV3, FCN, LRASPP 
 

Instance Segmentation

Semantic segmentation과 다르게 각각의 객체를 인식하는 것이 특징
 
ex) Mask R-CNN
 

Object Detection

하나의 이미지에서 사물(object)을 탐지하는 모델
 
이미지 입력에서 사물의 위치(localization)과 사물의 종류(label)을 동시에 예측
 
탐지 방법에 따라 One-stage detectionTwo-stage detection으로 나뉨
 
ex) Faster R-CNN, SSD
 

 Motion analysis

Keypoint analysis
사물의 특정위치를 학습하여 행동을 예측하거나 분석하는 컴퓨터 비전 기술
 
일반적으로는 사람을 대상으로한 연구가 많이 진행되고 있고, 동물에 대한 연구도 최근 진행되고 있음
 
ex) Mask R-CNN
 

Image reconstruction

GAN(Generative Adversarial Network)
 
새로운 이미지를 생성하기 위해 생성자(Generator)구분자(Discriminator)적대적(Adversarial) 구조로 네트워크를 구성하는 모델
 
ex) BEGAN, StyleGAN, StarGAN 
 

한계

데이터

공개된 데이터 이외에 새로운 데이터에 대해서 새로 label을 달기 매우 어려움 (고비용)
 
고해상도 이미지를 활용하거나 동영상을 활용하는 경우, 학습을 위한 고성능 컴퓨터 디바이스가 필요
 
Self-supervised learning, Un-supervised learning, Transfer learning 등의 연구가 진행중
 

모델

여러가지 Task 잘 수행 가능한 모델 개발이 어려움  (도메인이 다른 경우, label 특징이 다른 경우)
 
고성능 모델의 경우, 경량화 문제로 모바일 디바이스IoT 디바이스에서 활용이 어려움
 
 Knowledge distillation, Domain Adaptation 등의 연구가 진행중
 

explainable

인공지능 모델이 도출한 예측 결과에 대해 설명력부여 할 수 없음
자동차, 의료 등 일부 산업에 활용하기 위해서는 판단 근거에 대한 설명력이 필요할 수 있음
XAI 연구가 진행중

 

 

 

출처 : 파이토치로 딥러닝 제대로 배우기