[ DL ] ๊ณ ๊ธ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ
๋น์ ์์คํ ์ ์ํ ๋ฅ๋ฌ๋ Deep Learning for Vision Systems ์ ๊ณต ์์ ์ ๋ค์ผ๋ฉฐ ๋ฐฐ์ด ๋ด์ฉ์ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.
๋ณธ ํฌ์คํธ์์๋ ๊ณ ๊ธ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ Advanced CNN Architectures์ ๋ํด ์ ๋ฆฌํ๊ฒ ๋ค.
CNN์ ๋์์ธ ํจํด
CNN์ ์ด์ฉํด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ค๊ณํ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ํจํด ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅธ๋ค.
1๏ธโฃ ์ฒซ ๋ฒ์งธ ํจํด : ํน์ง ์ถ์ถ๊ณผ ๋ถ๋ฅ
- ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํฌ๊ฒ ํน์ง ์ถ์ถ์ ๋งก๋ ๋ถ๋ถ๊ณผ ๋ถ๋ฅ๋ฅผ ๋งก๋ ๋ถ๋ถ์ผ๋ก ๋๋จ
- ํน์ง ์ถ์ถ : ์ผ๋ จ์ ํฉ์ฑ๊ณฑ์ธต Conv
- ๋ถ๋ฅ : ์ ๊ฒฐํฉ์ธต FC
- LeNet, AlexNet, ์ธ์ ์ , ResNet ๋ฑ
2๏ธโฃ ๋ ๋ฒ์งธ ํจํด : ์ด๋ฏธ์ง ๊น์ด ๐ผ, ์ด๋ฏธ์ง ํฌ๊ธฐ ๐ฝ
- ๋ชจ๋ ์ธต์ ์ ๋ ฅ์ ์ด๋ฏธ์ง
- ๊ฐ ์ธต์ ์ด์ ์ธต์์ ์์ฑ๋ ์๋ก์ด ์ด๋ฏธ์ง์ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ์ ์ฉํจ
- ์ ๋ ฅ์ธต์์ ๊น์ด๊ฐ 1์ด๋ฉด ํ์์กฐ (์์ ์ฑ๋)
- ์ดํ ๊ณ์ธต์์ ๊น์ด๋ ์ด์ ์ธต์์ ์ถ์ถ๋ ํน์ง์ ๋ํ๋ด๋ ํน์ง ๋งต์ด ๋จ
- ๋ชจ๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์์ ํฉ์ฑ๊ณฑ์ธต์ ์ง๋ ๋๋ง๋ค ์ด๋ฏธ์ง์ ๊น์ด๊ฐ ์ฆ๊ฐํ๊ณ ํฌ๊ธฐ๋ ๊ฐ์ํ๋ ๊ฒฝํฅ
3๏ธโฃ ์ธ ๋ฒ์งธ ํจํด : ์ ๊ฒฐํฉ์ธต FC
- ๋๋ถ๋ถ ๋ชจ๋ FC์ธต์ ์ ๋์๊ฐ ๊ฐ๊ฑฐ๋, ์ ๋ ์๊ฐ ๊ฐ์ํ๋ ๊ฒฝํฅ
- ์ ๋์๊ฐ ์ฆ๊ฐํ๋ ๊ฒฝ์ฐ๋ ๊ฑฐ์ ์์
- ์ด์ด์ง๋ ๋ชจ๋ FC์ธต์ ์ ๋์ ๊ฐ๊ฒ ํด์ ์ ๊ฒฝ๋ง์ ํ์ต ๋ฅ๋ ฅ์ด ์ ํด๋๋ ํ์์ ๋ฐ์๋์ง ์์
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ์ดํด๋ณด๊ธฐ
๐ LeNet -5
- 1998๋ ๋ฅด์ฟค ์ฐ๊ตฌ์ง ๋ฐํ
- ์ง๊ด์ ์ธ ๊ตฌ์กฐ
- ๊ฐ์ค์น๋ฅผ ๊ฐ์ง 5๊ฐ์ ์ธต > ๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก๋์ ์ง๊ฒฐ
- 3๊ฐ์ ํฉ์ฑ๊ณฑ์ธต
- 2๊ฐ์ ์ ๊ฒฐํฉ์ธต
- pooling ์ธต์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง์ง ์์
- 1998๋ ๋น์, ReLU๋ ๋ฐ๊ฒฌ๋๊ธฐ ์ด์ > tanh์ sigmoid ํจ์๋ฅผ ์ฐ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์์
- ๊ฐ ํฉ์ฑ์ธต์ ํํฐ ์
- 6 > 16 > 120
- ๊ฐ ํฉ์ฑ์ธต์ ์ปค๋ ํฌ๊ธฐ
- 5 x 5
- Pooling ์ธต AveragePooling
- ์์ฉ ์์ญ ํฌ๊ธฐ : 2 x 2
- ํ์ฑํ ํจ์ Tanh ํจ์
๐ AlexNet
- ์๋ ์คํฌ๋ฆฌ์ฒดํ์คํค ์ฐ๊ตฌ์ง
- LeNet์ด MNIST์ ๋ํด์๋ AlexNet๋ณด๋ค๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
- AlexNet์ MNIST๋ณด๋ค ๋ณต์ก๋๊ฐ ๋์ ์ด๋ฏธ์ง๋ท ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์ ์๋จ
- ๐ 2012, ILSVRC
- 120๋ง ์ฅ์ ์ด๋ฏธ์ง, 1000 ํด๋์ค
- CV์์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ฅ๋ฌ๋์ ์ต์ด๋ก ๋์
ํ์ฌ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์์ฉ์ด ํ์ฐ๋๋ ๊ณ๊ธฐ๊ฐ ๋์์
- ์ด์ ์๋ ์์ฑ ์ธ์ ๋ฑ ์์ ๋ถ์ผ์์๋ง ๋ฅ๋ฌ๋ ์ ์ฉ๋๊ณ ์์์
- ๊ฐ์ค์น๋ฅผ ๊ฐ์ง 8๊ฐ์ ์ธต
- 5๊ฐ์ ํฉ์ฑ๊ณฑ์ธต
- 3๊ฐ์ ์ ๊ฒฐํฉ์ธต
- ํช์ฑ๊ณฑ์ธต์ ํํฐ ํฌ๊ธฐ : 11 x 11, 5 x 5, 3 x 3
- MaxPooling ์ฌ์ฉ
- ๊ณผ์ ํฉ ๋ฐฉ์ง๋ฅผ ์ํ Dropout 0.5
- Dropout์ ํตํด ๋นํ์ฑํ๋ ๋ด๋ฐ์ ์๋ฐํฅ + ์ญ์ ํ ๊ณ์ฐ์์ ๋ชจ๋ ๋ฐฐ์
- ๋ด๋ฐ ๊ฐ์ ์ํธ ์ ์ ๋ฐฉ์ง
- ๋ค์ํ ์กฐํฉ์ ๋ด๋ฐ์ ๋์์ ์ฃผ๋ ์ ์ฉํ ํน์ง ํ์ต
- ํ์ฑํํจ์ ReLU
- ํ์ต ์๊ฐ ๋จ์ถ
- ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ํด๊ฒฐ
- ๋ฐ์ดํฐ ๊ฐํ
- ๊ตญ์ ์๋ต ์ ๊ทํ Local response normalization
- ๊ฐ์ค์น๊ฐ ๋นจ๋ฆฌ ์๋ ด๋๋๋ก
- BN๊ณผ ๋ค๋ฆ
- ๊ฐ์ค์น ๊ท์ ํ
- 0.00005์ ๊ฐ์ค์น ๊ฐ์ ์ ์ฉ
- ๋ค์ค GPU ์ฌ์ฉ
- 2๊ฐ์ GPU์ ์ ๊ฒฝ๋ง์ ๋๋ ๋ด์ ํ์ตํ๋ ๋ณต์กํ ๋ฐฉ์
- ๊ฐ ์ธต์ ๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ๋ถ๋ฆฌํ๊ณ , GPU๊ฐ ์๋ก ํต์ ํ๋๋ก
๐ VGGNet
- 2014, ์ฅ์คํผ๋ ๋ํ VGG ์ฐ๊ตฌ ๊ทธ๋ฃน ์ ์
- AlexNet๋ณด๋ค ๊น์ด ์๋ ์ ๊ฒฝ๋ง
- AlexNet๋ณด๋ค ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ ์ โถ๏ธ ์ฐ์ฐํจ์จ์ฑ ๐
- ์๋ก ๊ณ ์๋ ์์ ์์ด LeNet๊ณผ AlexNet๊ณผ ๋์ผ (์ ๊ฒฝ๋ง ์ธต์๋ง ๋ ๋ง์)
- ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ์ธต 16๊ฐ๋ก ๊ตฌ์ฑ
- ํฉ์ฑ๊ณฑ์ธต 13๊ฐ
- ์ ๊ฒฐํฉ์ธต 3๊ฐ
- ๋ชจ๋ ์ธต์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋์ผํ๊ฒ ์ค์ > ์ดํดํ๊ธฐ ์ฝ๋ค !
- ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ๋ฅผ ๋จ์ํ์ํด
- VGGNet์์ ํฉ์ฑ๊ณฑ์ธต์ ํํฐ ํฌ๊ธฐ๋ฅผ 3 x 3์ผ๋ก ์ค์์
- AlexNet๋ณด๋ค ๋ ์ธ๋ฐํ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด
โญ๏ธ ์์ฉ์์ญ์ ํฌ๊ธฐ๊ฐ ๊ฐ์ ๋
์์ฉ์์ญ : ์ถ๋ ฅ์ ํ ์ ์ ์ํฅ์ ๋ฏธ์น๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ฒ์ํฌ๊ธฐ๊ฐ ํฐ ํ๋์ ์ปค๋๋ณด๋ค ํฌ๊ธฐ๊ฐ ์์ ์ปค๋์ ์ฌ๋ฌ ๊ฐ ์์ ์ชฝ์ด ์ฑ๋ฅ์ด ๋ ์ข๋ค.
์ปค๋์ ์ฌ๋ฌ ๊ฐ ์์ผ๋ฉด์ ๋น์ ํ์ธต์ ๋๋ฆฌ๋ ๊ฒ ๐ฐ ์ ๊ฒฝ๋ง์ ์ธต์๋ฅผ ๋๋ฆฌ๋ ๊ฒ
์ ๊ฒฝ๋ง์ ์ธต์๋ฅผ ๋๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ด๋ฉด์ ํ๋ผ๋ฏธํฐ ์๋ ์ต์ ํ์ฌ ๋ ๋ฎ์ ๋น์ฉ์ผ๋ก ๋ ๋ณต์กํ ํน์ง์ ํ์ตํ ์ ์๋ค.
โก๏ธ ์ธต์๋ฅผ ๋๋ฆฌ๊ณ ํฉ์ฑ๊ณฑ ํํฐ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์ ๊ท์ ํ์ ๊ฐ์ ํจ๊ณผ ๋ฐ์ โญ๏ธ
๐ ์ธ์ ์ ๊ณผ GoogLeNet
- 2014, ๊ตฌ๊ธ ๋ฐํ
-
์ ๊ฒฝ๋ง ๋ด๋ถ์ ์ผ๋ก ๊ณ์ฐ ์์์ ํจ์จ์ ๋์์
- ์
์
์
์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ๊ตฌํํ GoogLeNet์ 22๊ฐ ์ธต์ผ๋ก ๊ตฌ์ฑ
- VGGNet๋ณด๋ค ์ธต์๊ฐ ๋ง์
- ํ๋ผ๋ฏธํฐ ์๋ VGGNet์ 1/12์ ๋ถ๊ฐํจ
- VGGNet : 1์ต 3800๋ง ๊ฐ, GoogLeNet : 1300๋ง ๊ฐ
์ธ์ ์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ
๊ตฌ๊ธ์ AlexNet, VGGNet์์ ๋ฐ์จ ๊ณ ์ ์ CNN ๊ตฌ์กฐ ๋ฐ๋ฅด์ง๋ง ์ธ์ ์ ๋ชจ๋์ด๋ผ๋ ์๋ก์ด ์์ ๋์ ํ์๋ค.
๊ธฐ์กด ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ค์ ๊ฐ ์ธต๋ง๋ค ํฉ์ฑ๊ณฑ์ธต์ ์ปค๋ ํฌ๊ธฐ, ํ๋ง์ธต์ ๋ฐฐ์น ๋ฑ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด ๋ค์ํ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ์ผํ๋ค.
์ธ์ ์ ์์๋ ์ด๋ค์ ์ง์ ๊ฒฐ์ ํ๋ ๋์ ๋ธ๋ก ์ ์ฒด์ ๋๊ฐ์ ์ค์ (์ธ์ ์ ๋ชจ๋)์ ์ ์ฉํ๋ค. ์ด๋ฅผ ์ ์ฉํด ๊ตฌ์ฑํ ๋ชจ๋ธ์ด ๋ฐ๋ก GoogLeNet์ด๋ค.
๊ธฐ์กด ๋ฐฉ์์์๋ ํฉ์ฑ๊ณฑ์ธต๊ณผ ํ๋ง์ธต์ ๋ฒ๊ฐ์ ์์๋ค๋ฉด, ์ธ์ ์ ๊ตฌ์กฐ์์๋ ์ค๋ฅธ์ชฝ๊ณผ ๊ฐ์ด ์ ์ ์ ๋ชจ๋๊ณผ ํ๋ง์ธต์ ์์ ํน์ง ์ถ์ถ๊ธฐ๋ฅผ ๊ตฌ์ฑํ์๋ค.
- ์ธ์
์
๋ชจ๋์ ๊ตฌ์ฑ
- 1 x 1 ํฉ์ฑ๊ณฑ์ธต, 3 x 3 ํฉ์ฑ๊ณฑ์ธต, 5 x 5 ํฉ์ฑ๊ณฑ์ธต, 3 x 3 ์ต๋ํ๋ง์ธต
- ๊ฐ ์ธต์ ์ถ๋ ฅ โถ๏ธ ์ฐ์ ์ฒ๋ฆฌ cnocatenation๋ฅผ ํตํด ํ๋์ ์ถ๋ ฅ์ผ๋ก ํฉ์ณ์ง โถ๏ธ ๋ค์ ๋จ๊ณ์ ์ ๋ ฅ
- ์ฐจ์ ์ถ์ ์ ์ฉ
- ๋จ์ ์ธ์ ์ ๋ชจ๋์ ํฌ๊ธฐ๊ฐ ํฐ ํํฐ๋ฅผ ํฌํจํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ๋น์ฉ์ด ํผ
- 1 x 1 ํฉ์ฑ๊ณฑ์ธต์ ๋์ ํ๋ฉด
- ์ ๋ ฅ์ ๊น์ด๋ฅผ ์ถ์ํ๊ณ ์ฐ์ฐ๋์ ์ค์ผ ์ ์์
- ๋ณ๋ชฉ์ธต์ด๋ผ๊ณ ๋ ํจ
- ํฉ์ฑ๊ณฑ์ธต ์ / ์ต๋ํ๋ง์ธต ๋ค
GoogLeNet ๊ตฌ์กฐ
๐ ResNet Residual Neural Network
- 2015, ๋ง์ดํฌ๋ก์ํํธ ๋ฆฌ์์น ํ ์ ์
- ์์ฐจ ๋ชจ๋ + ์คํต ์ฐ๊ฒฐ
- ์๋์ธต > ๊ฐํ ๋ฐฐ์น ์ ๊ทํ ์ ์ฉ
- ๋ฐฐ์น ์ ๊ทํ๊ฐ ๊ฐํ๊ฒ ์ ์ฉ๋์ด ๋ณต์ก๋๋ฅผ ํจ์ฌ ๋ฎ์ถ ์ ์์
- ์ ๊ฒฝ๋ง์ด ์ง๋์น๊ฒ ๊น์ด์ง๋ฉด ๊ณผ์ ํฉ ๋ฐ์
- ResNet์ ๋ฐฐ์น์ ๊ทํ๋ฅผ ํตํด ๊ณผ์ ํฉ ๋ฌธ์ ํด๊ฒฐ ๐ก
- ์คํต ์ฐ๊ฒฐ
- ๋ค์ชฝ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์์ชฝ ์ธต์ ์ง์ ์ ๋ฌํ๋ ๋ณ๋์ ๊ฒฝ๋ก ์ถ๊ฐ
- activation ํต๊ณผํ๊ธฐ ์ ์ ๋ณด๋ ํจ๊ป ๋ฃ์ด์ค
- ํญ๋ฑ ํจ์๋ฅผ ํ์ตํ ์ ์์ด ์ธต์ด ์์ฌ๋ ์์ชฝ ์ธต๋ณด๋ค ์ฑ๋ฅ์ด ํ๋ฝํ์ง ์์
- ์์ฐจ ๋ธ๋ก
- ํฉ์ฑ๊ณฑ์ธต + ์คํต ์ฐ๊ฒฐ ์ถ๊ฐ
- ์์ฐจ ๋ธ๋ก์๋ ํ๋ง์ธต์ด ์์
- ์ฃผ ๊ฒฝ๋ก์ ์ง๋ฆ๊ธธ ๊ฒฝ๋ก๋ก ์ ๋ฌ๋๋ ์ ๋ณด์ ์ฐจ์์ด ๋์ผํด์ผ ์ฐ์ฐ ๊ฐ๋ฅ
- ์ง๋ฆ๊ธธ ๊ฒฝ๋ก
- ์ ๋ ฅ์ ์ฃผ ๊ฒฝ๋ก์ ReLU ์ ๋ ฅ ์ ์ผ๋ก
- ์ฃผ ๊ฒฝ๋ก
- ์ผ๋ จ์ ํฉ์ฑ๊ณฑ ์ฐ์ฐ ๋ฐ ํ์ฑํ ํจ์
- ๊ฐ ํ์ฑ๊ณฑ ์ธต๋ง๋ค ๋ฐฐ์น ์ ๊ทํ ์ ์ฉ โถ๏ธ ๊ณผ์ ํฉ ๋ฐฉ์ง + ํ์ต ์๋ ํฅ์
- [ Conv + BN + ReLU ] x 3
Related Posts
Summary | AI-OCR๋? | |
TIL | LDA๋? - NLP Topic Modeling | |
TIL | LeakGAN์ด๋? - NLP Text Generation Model |
๐ You need to log in to GitHub to write comments. ๐
If you can't see comments, please refresh page(F5).