R-CNN paper review

1 minute read

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.

Abstract

PASCAL VOC dataset에서 Object detrction은 몇 년 동안 지체되었다. 이 논문은 이전 모델에 비해 mAP(mean average precision)가 30%나 향상되었다. 이 알고리즘의 인사이트는 두 가지이다.

  1. 객체를 지역화(localize), 세분화(segment) 하기위해 bottom-up region proposals을 CNN에 적용한다.
  2. 데이터 셋이 부족할 때 auxiliary task의 domain-specific fine-tuning에 대한 supervised pre-training은 상당한 성능향상을 가져옴

이를 우리는 R-CNN(Regions with CNN features) 라고 부른다.

Introduction

memoryblock

2010-2012년 동안 오브젝트 디텍션은 진행이 느렸음 앙상블이 제일 성능이 좋았음
SGD(stochastic gradient descent) 기반의 CNN이 등장하며 효과적인 결과를 불러왔다.
이미지넷으로 대규모의 학습이 이루어졌다.
image classification and object detection의 갭을 해소하였다.
이 논문에서는 sliding-window detector를 사용하였다. 또한 5개의 컨불루션레이어를 통해 매우 큰 receptive fields (195 × 195 pixels) and strides (32×32 pixels) 가 있어 정확한 위치를 파악한다.
하지만 두가지 문제점이 있었다.

문제점 1 : sliding-window는 전체를 봐야하기 때문에 비효율적이다.
이 문제에 대한 해결책은 region proposal algorithm을 사용하였다.

region proposal algorithm :

  1. 2,000개의 input image로 독립적인 region proposal을 생성
  2. CNN을 통해 각 proposal 마다 고정된 길이의 feature vector를 추출
  3. 각 region 마다 category-specific linear SVM을 적용하여 classification을 수행

성능이 OverFeat의 24.3% 보다 R-CNN의 31.4% mAP로 더 높다.

문제점 2 : large CNN을 훈련시킬만한 데이터 셋이 충분하지 않았다.
이 문제에 대한 해결책은 ILSVRC DATA로 pre-training 된 model을 가져와서 fine-tune 하여 PASCAL DATA에 사용하였다.

우리의 시스템은 매우 효율적이다.

Object detection with R-CNN

memoryblock

우리의 Object detrction은 3가지 모듈로 구성된다.

  1. 독립적인 region proposals를 생성하는 모듈
  2. 각 영역에 대한 feature vector를 추출하는 large CNN 모듈
  3. classspecific 하기 위한 linear SVMs모듈

selective search는 처음 약 2000개의 region proposals 한다.
다음 proposals을 CNN에 통과시켜 계산한다.(CNN은 미리 학습되어있던 것)
다음 SVM에 넣어 특징벡터로 점수를 매긴다.
학습된 임계값보다 더 큰 점수를 얻은 영역들은 IoU를 계산하여 최적의 박스만 남긴다.

Domain-specific fine-tuning.

  • SGD사용
  • 클레스의 수는 배경을 포함해야하기 때문에 (N+1)이다.
  • Ground Truth 박스와 0.5 IoU 이상 겹치면 positives, 아니면 negatives.
  • learning rate of 0.001
  • batch of size 128

Results on PASCAL VOC 2010-12

memoryblock

VOC 2010 test에서는 35.1% UVA 보다 더 높은 53.7%를 달성하였다.
VOC 2011/12 test에서도 53.3%라는 유사한 높은 성능을 달성하였다.

Bounding Box Regression는 한마디로 부정확한 박스위치를 교정하여 정확도를 올리는 방법

Leave a comment