Pytorch
Computer Vision
술임
2025. 5. 10. 19:05
• 컴퓨터 분야에서 시각을 연구하는 분야
Recognition
Classification
• 이미지 input에 대해서 label 예측하는 것
• CNN 모델을 중첩해서 사용하거나, 응용하여 모델들을 구현
ex) LeNet, AlexNet, GoogleNet, ResNet, VGG
Semantic Segmentation
• 모든 픽셀의 label을 예측하는 Task
• 한 장에 사진에서 여러 개의 label이 존재 가능
• 한 장의 이미지에서 대상을 구체적으로 정의하지 않고, 큰 분류로 구분
ex) DeepLabV3, FCN, LRASPP
Instance Segmentation
• Semantic segmentation과 다르게 각각의 객체를 인식하는 것이 특징
ex) Mask R-CNN
Object Detection
• 하나의 이미지에서 사물(object)을 탐지하는 모델
• 이미지 입력에서 사물의 위치(localization)과 사물의 종류(label)을 동시에 예측
• 탐지 방법에 따라 One-stage detection과 Two-stage detection으로 나뉨
ex) Faster R-CNN, SSD
Motion analysis
Keypoint analysis
• 사물의 특정위치를 학습하여 행동을 예측하거나 분석하는 컴퓨터 비전 기술
• 일반적으로는 사람을 대상으로한 연구가 많이 진행되고 있고, 동물에 대한 연구도 최근 진행되고 있음
ex) Mask R-CNN
Image reconstruction
GAN(Generative Adversarial Network)
• 새로운 이미지를 생성하기 위해 생성자(Generator)와 구분자(Discriminator)의 적대적(Adversarial) 구조로 네트워크를 구성하는 모델
ex) BEGAN, StyleGAN, StarGAN
한계
데이터
• 공개된 데이터 이외에 새로운 데이터에 대해서 새로 label을 달기 매우 어려움 (고비용)
• 고해상도 이미지를 활용하거나 동영상을 활용하는 경우, 학습을 위한 고성능 컴퓨터 디바이스가 필요
• Self-supervised learning, Un-supervised learning, Transfer learning 등의 연구가 진행중
모델
• 여러가지 Task를 잘 수행 가능한 모델 개발이 어려움 (도메인이 다른 경우, label 특징이 다른 경우)
• 고성능 모델의 경우, 경량화 문제로 모바일 디바이스나 IoT 디바이스에서 활용이 어려움
• Knowledge distillation, Domain Adaptation 등의 연구가 진행중
explainable
• 인공지능 모델이 도출한 예측 결과에 대해 설명력을 부여 할 수 없음
• 자동차, 의료 등 일부 산업에 활용하기 위해서는 판단 근거에 대한 설명력이 필요할 수 있음
• XAI 연구가 진행중
출처 : 파이토치로 딥러닝 제대로 배우기