Jun 05, 2018 deep-learning, deep-learning
WHY?
일반적으로 뉴럴 네트워크의 층이 깊어지면 성능이 향상되지만 그만큼 학습하기는 더욱 어려워진다.
WHAT?
Highway network은 LSTM의 구조에서 착안하여 각 층들에 대하여 gate를 학습하는 장치를 추가하였다. y = H(x, WH)y = H(x, WH) ⋅ T(x, WT) + x ⋅ C(x, Wc)y = H(x, WH) ⋅ T(x, WT) + x ⋅ (1 − T(x, Wc)) H는 activation, T는 transform gate, C는 carry gate로 정의된다. C는 보통 1-T로 정의된다. 여기에서 x, y, H(x, W), T(x, W)의 dimension이 일치해야 하기 때문에 x를 subsampling하여 줄이던지 크기가 감소하지 않도록 zero-padding을 하는 방법을 사용한다.
So?
MNIST와 CIFAR100 데이터에 대하여 기존 네트워크는 깊이가 깊어질 수록 오히려 성능이 떨어지는 경우가 있는 반면 Highway network은 더 좋은 성능을 낼 수 있었다.
Critic
Resnet과 같은 효과를 내는 것 같다. 다른 데이터들에 대한 실험이 있었으면 더 좋을 것 같다. Srivastava, Rupesh Kumar, Klaus Greff, and Jürgen Schmidhuber. “Highway networks.” arXiv preprint arXiv:1505.00387 (2015).