AdaIN paper review

3 minute read

AdaIN

Xun Huang, et al. “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization.” Proceedings of the IEEE International Conference on Computer Vision (ICCV)2017.

AdaIN 리뷰

안녕하세요. AiRLab(한밭대학교 인공지능 및 로보틱스 연구실) 노현철 입니다. 제가 이번에 리뷰할 논문은 “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization” 입니다.

Abstract

-콘텐츠 이미지를 다른 이미지 스타일로 렌터링하는 알고리즘 도입
-하지만 프레임워크에서는 느린 프레임워크에서 최적화 되어 실제 적용이 제한된다.
-신경 스타일 전송속도를 높이기 위해 feed-forward neural networks가 제안되었다. 하지만 속도향상의 따른 대가는 고정된 스타일만 적용가능하고 새로운 스타일은 적용 불가능이다.
-이 논문은 새로운 스타일에 대해서도 실시간으로 전송할 수 있고, 간단하면서도 효과적인 접근방식을 제시한다.
-우리의 핵심방식은 콘텐츠의 특징의 평균, 분산을 새로운 스타일의 평균, 분산으로 정렬하는 novel adaptive instance normalization (AdaIN) 이다.
-스타일의 제한없이 가장 빠른 속도를 가진다.
-또한, 우리는 content-style trade-off, style interpolation, color & spatial controls와 같은 사용자 제어를 허용한다.

Introduction

-DNN은 콘텐츠와 이미지 스타일 정보도 인코딩을 한다. 또한 둘을 분리할 수 있다. 콘텐츠를 유지하면서 스타일 변경이 가능하다. 그러나 매우 느리다.
-스타일 전송을 가속화하기 위해 많은 노력을 기울였다.
-이 문제를 다루는 논문은 유한한 스타일 세트로 제한되거나 단일 스타일(새로운 스타일) 전송은 훨씬 느리다.
-우리의 작업은 이러한 근본적인 유연성, 속도를 해결하는 알고리즘을 제시한다.
-우리의 알고리즘은 가장 빠른 feed-forward와 유사하며, 새로운 스타일을 real-time으로 전송할 수 있다.
-우리의 메소드는 instance normalization에서 영감을 받았으며, feed-forward에서 놀라운 효과를 얻었다
-instance normalization는 이미지의 스타일 정보를 전달하는 것으로 밝혀진 특성 통계를 정규화하여 스타일 정규화를 수행한다는 새로운 해석을 제안하였다(다른 논문에서)
-이러한 해석을 동기화 하여 간단한 확장, adaptive instance normalization (AdaIN)를 소개한다.
-콘텐츠(input image)와 스타일이 주워지면 AdaIN은 단순히 스타일의 입력과 일치하도록 콘텐츠의 평균, 분산을 조정한다.
-실험을 통해 AdaIN은 기능 통계를 전송하여 콘텐츠 전자, 스타일 후자를 효과적으로 결합한다. 이후 AdaIN 출력을 이미지 공간으로 반전하여 최종 이미지를 생성한다.
-우리의 방법은 기존 방식(DNN) 보다 3배 빠르고, 프로세서를 수정하지 않고도 사용제 제어가 가능하다.

-스타일 전송은 다양한 방법들이 있고, 대부분 시간을 소비하는 대신 비디오 스타일의 품질을 향상시켰다.
-느린 최적화 속도로 인해 최신GPU를 사용하더라도 느리다. 따라서 모바일 애플리케이션으로는 실용적이지 못 하다.
-해결방법으로는 f최소한으로 훈련된 feed-forward신경망으로 대체하였고, 약 3배 빠르게 real-time 애플리이케이션으로 최적화하였다. 또한 여러 가지 방법들로 인해 새로운 스타일을 전송할 수 있는 아키텍쳐들이 제안되었지만, 새로운 스타일에 대해서는 적응할 수 없었다
었다. -가장 최근 새로운 스타일 전송방식이 나왔지만(가장 일치하는 스타일로 적용) 병목현상을 발생 시킨다.
-우리의 접근방식은 이와 같이 새로운 스타일 전송 하지만 1-2배 빠르다.
-스타일 전송의 다른 핵심 문제는 스타일 손실 함수이다.
-MRF loss, adversarial loss, histogram loss, CORAL loss, MMD loss, and distance between channel-wise mean and variance를 사용하는 목표는 스타일 이미지와 합성 이미지의 일부기능 통계를 일치 시키는 것
-심층 모델링으로는 GAN의 프레임 워크에 대한 다양한 개선이 제안되었다.

Background

Batch Normalization

-feed-forward 네트워크에 배치에 따라 Normalization를 적용하여 네트워크의 훈련속도를 가속화 하도록 설계 되었지만 생성 이미지 모델링(이미지 생성)에서도 효과적인 것으로 밝혀졌습니다.
memoryblock

Instance Normalization

-단순히 Batch Normalization를 Instance Normalization로 바꿔도 상당한 개선을 달성할 수 있음을 발견
memoryblock

Conditional Instance Normalization

-기존 논문에서는 각 스타일에 대해 서로다른 매개변수 감마, 베타를 학습하는 conditional instance normalization을 제안하였다.
-몇가지로 구성된 스타일(S)를 사용하여 값을 변경해줌으로써 감마, 베타값을 변경시켜 완전히 다른 스타일의 이미지를 생성 할 수 있다.
-하지만 이 또한 fixed된 스타일의 이미지에서만 적용되고 새로운 스타일에 대해서는 적용이 불가
memoryblock

Interpreting Instance Normalization

-(Conditional) instance normalization는 큰 성공이지만 잘 작동하는 이유는 아직까지도 파악하기 어렵다.
-여기서 중요한점은 instance normalization에서 감마, 베타 값만 조정하여도 이미지의 스타일을 완전히 변경할 수 있다는 점이다.
-채널별로 평균 및 분산을 포함한 다른 많은 통계를 일치시키는 것이 스타일 전달에도 효과적인 것을 기존 논문에서 알아내었다.
-그림1.a를 보면 Batch Normalization보다 Instance Normalization가 더욱 빠르게 수렴하였다.
-그림1.b를 보면 기존 논문의 설명이 잘못되었다라고 지적하고 있다. contrast문제였다면 비슷하게 나와야 하는데 더욱 벌어진 것을 볼 수 있다.
-그림1.c를 보면 스타일 Normalization이 이미 되어있는 것을 비교해 보았을 때는 차이가 거의 없는 것을 보고 스타일 부분에서 Instance Normalization이 효과가 좋다는 것을 알 수 있다.

memoryblock

Adaptive Instance Normalization

-AdaIN은 콘텐츠 입력 x와 스타일 입력 y를 수신하고 x의 채널 별 평균 및 분산을 y의 값과 일치하도록 정렬
-스타일 입력에 대해서 affine 매개변수를 적응형으로 계산한다.
-짧게 말해서는 채널 별 평균 및 분산을 전송하여 스타일 전송을 수행한다. 기존의 스타일 스왑 레이어와 유사한 역항이다.
-스타일 스왑 레이어는 시간과 메모리를 많이 소모하지만 AdaIN은 IN과 같이 간단하고 계산 비용이 거이 추가되지 않는다.(이러하여 real-time에 사용하는 듯)
memoryblock

Experimental Setup

Training

-MS-COCO as content images
-WikiArt as style images
-80,000 training examples
-adam optimizer
-batch size of 8 content-style image pairs
-pre-trained VGG19
-combination of the content loss Lc and the style loss Ls with the style loss weight λ
memoryblock

Results

-아래 그림을 보듯이 기존 논문(Gatys et a)보다는 로스가 높지만 기존 논문은 real-time에서 사용할 수 없고 모바일 플랫폼과는 어울리지 않는다. 하지만 우리는 가능하다.
memoryblock

-테이블 1은 속도는 거의 리얼타임과 가깝고 스타일도 무제한으로 입력이 가능하다.
memoryblock

-아래 그림을 보듯이 퀄리티는 거의 비슷하다.
memoryblock

-아래 그림은 사용자에 따라 가중치를 다르게 적용하여 커스텀 할 수 있다.
memoryblock

-아래 그림은 4가지의 스타일을 섞어 적용 할 수 있다.
memoryblock

-아래 그림은 배경과 인물의 스타일을 다르게 적용 가능하다.
memoryblock

-결과사진
memoryblock

Share on

Twitter Facebook LinkedIn

HyeonCheol Noh

AdaIN paper review

AdaIN

AdaIN 리뷰

Abstract

Introduction

Background

Batch Normalization

Instance Normalization

Conditional Instance Normalization

Interpreting Instance Normalization

Adaptive Instance Normalization

Experimental Setup

Training

Results

Share on

Leave a comment

You may also enjoy

Deep Image Harmonization

RandAugment: Practical automated data augmentation with a reduced search space

AutoAugment: Learning Augmentation Strategies from Data

PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation

HyeonCheol Noh

AdaIN

AdaIN 리뷰

Abstract

Introduction

Related Work

Background

Batch Normalization

Instance Normalization

Conditional Instance Normalization

Interpreting Instance Normalization

Adaptive Instance Normalization

Experimental Setup

Training

Results

Share on

Leave a comment

You may also enjoy

Deep Image Harmonization

RandAugment: Practical automated data augmentation with a reduced search space

AutoAugment: Learning Augmentation Strategies from Data

PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation