* ์ด ๊ธ์ ๋ค์ด๋ฒ ๋ถ์คํธ ์ฝ์ค์ ๋ฅ๋ฌ๋ ๊ธฐ์ด ๋ค์ง๊ธฐ ๊ฐ์๋ฅผ ์๊ฐํ๋ฉฐ ์ ๋ฆฌํ ๊ธ์ ๋๋ค.
์ค๋์ ์ธ๊ณต์ง๋ฅ์ ํ์ ํญ๋ชฉ์ธ ๋ฅ๋ฌ๋์ ์ ์์ ๊ตฌ์ฑ์์์ ๋ํด ์์๋ณด์.
0. ์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ์ ์
์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ธ๊ณต์ง๋ฅ : ์ฌ๋์ ์ง๋ฅ์ ๋ชจ๋ฐฉํ๋ ๊ฒ
๋จธ์ ๋ฌ๋ : ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ํ์ต์ผ๋ก ์ฌ๋์ ์ง๋ฅ์ ๋ชจ๋ฐฉํ๋ ๊ฒ
๋ฅ๋ฌ๋ : ์ธ๊ณต ์ ๊ฒฝ๋ง(Neural network) ๊ตฌ์กฐ๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ํ์ต์ผ๋ก ์ฌ๋์ ์ง๋ฅ์ ๋ชจ๋ฐฉํ๋ ๊ฒ
์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ํฌํจ ๊ด๊ณ๋ฅผ ๋ํ๋ผ ์ ์๋ค.
- ์งํ ์ฐ์ฐ์ผ๋ก ํํ
์ธ๊ณต์ง๋ฅ $\supset$ ๋จธ์ ๋ฌ๋ $\supset$ ๋ฅ๋ฌ๋
- ๋ฒค ๋ค์ด์ด ๊ทธ๋จ์ผ๋ก ํํ
์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ ์ค ์ด๋ฒ ๊ฐ์์์ ์ฃผ์ํ๊ฒ ๋ค๋ฃจ๋ ๋ฅ๋ฌ๋์ ๋ํด ๋ ์์ธํ ์ดํด๋ณด์.
1. ๋ฅ๋ฌ๋์ ๊ตฌ์ฑ ์์
๋ฅ๋ฌ๋์ ๊ตฌ์ฑ์์๋ ํฌ๊ฒ ๋ค๊ฐ์ง์ด๋ค.
โ ๋ชจ๋ธ์ ํ์ฉํ ๋ฐ์ดํฐ(Data)
โก ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณํํ ์ง ๊ฒฐ์ ํ๋ ๋ชจ๋ธ(Model)
โข ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ์์คํจ์(Loss function)
โฃ ์์ค ํจ์๋ฅผ ์ต์ํํ๊ธฐ ์ํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๊ณ ์ ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ(Algorithm)
๊ตฌ์ฑ์์๋ค์ ๋ํด ๋ ์์ธํ ์์๋ณด์.
- ๋ฐ์ดํฐ (Data)
์ด๋ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋์ง๋ ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ์ํด ์ข์ฐ๋๋๋ฐ, ๋ํ์ ์ธ ๋ฌธ์ ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
โ ๋ถ๋ฅ (Classification)
: ๋ถ๋ฅ๋ ์ด๋ฏธ์ง $\rightarrow$ ๋ผ๋ฒจ๋ก ๋ณํํ๋ ๋ฌธ์ ์ด๋ค.
โก ์ด๋ฏธ์ง ํฝ์ ๋ณ ๋ถ๋ฅ (Sementic Segmentation)
: ์ด๋ฏธ์ง ๊ฐ ํฝ์ $\rightarrow$ ํด๋นํ๋ ํด๋์ค๋ก ๋ณํํ๋ ๋ฌธ์ ์ด๋ค.
โข ๊ฐ์ฒด ๊ฒ์ถ (Object Detection)
: ์ด๋ฏธ์ง ์์ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๋ ๊ฒ์ผ๋ก ๊ฐ ๊ฐ์ฒด๋ค์ boundary box๋ฅผ ์ฐพ๊ณ ํด๋นํ๋ ํด๋์ค๋ก ๋ณํํ๋ ๋ฌธ์ ์ด๋ค.
โฃ ํฌ์ฆ ์ถ์ (Pose Estimation)
: ์ด๋ฏธ์ง ์์ ์ฌ๋ $\rightarrow$ ์ ์ฒด ๊ด์ ์ ์ ๋ณด๋ฅผ ์์๋ด๋ ๊ฒ์ด๋ค.
โค ์๊ฐ์ ์ง์์๋ต (Visual QnA)
์ด๋ฏธ์ง์ ์ง๋ฌธ์ด ์ฃผ์ด์ก์ ๋ $\rightarrow$ ์ง๋ฌธ์ ๋ํ ๋ต์ ์ฐพ๋ ๋ฌธ์ ์ด๋ค.
- ๋ชจ๋ธ (Model)
์ด๋ฏธ์ง/ํ ์คํธ ๋ฑ์ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋, ํด๋น ๋ฐ์ดํฐ๋ฅผ ์ํ๋ ์๋๋๋ก ๋ฐ๊พธ์ด ์ฃผ๋ ๊ฒ์ ๋งํ๋ค.
๋ํ์ ์ธ ๋ชจ๋ธ๋ก๋ Alexnet, GoogLeNet, ResNet, DenseNet, Lstm, Deep Auto Encoders, GAN ๋ฑ์ด ์๋ค.
๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด๋ ๋ชจ๋ธ์ ๋ฐ๋ผ ์ ํ๋๊ฐ ๋ฌ๋ผ์ง๋ฏ๋ก, ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ์ ํํ์ฌ์ผ ํ๋ค.
- ์์ค ํจ์ (Loss function)
๋ฐ์ดํฐ, ๋ชจ๋ธ์ด ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ํ์ต์ํฌ์ง ๋ฐฉํฅ์ฑ์ ์ก์์ฃผ๋ ํจ์์ด๋ค.
๋ชฉํ์ proxy(๊ทผ์ฌ์น)๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋๋ฐ, ์์คํจ์๊ฐ ๊ฐ์๊ฐ ๋ฐ๋์ ๋ฌธ์ ์ ๋ชฉํ(๋ถ๋ฅ, ํ๊ท ๋ฑ)์ Error์ด ์ค์ด๋๋ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ๋ชฉํ๋ฅผ ์ ๊ทผ์ฌํ๋ ํ์ต๋ฐฉํฅ์ ๊ฐ์ง ์์คํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๋ฅ๋ฌ๋์ ๊ด์ ) ์์คํจ์๋ฅผ ์ต์ํํ๋ค๋ ๊ฒ์
$\rightarrow$ ๋ด๋ด ๋คํธ์ํฌ์ ๊ฐ layer ๋ณ๋ก ์ต์ ์ (weight, bias) ๊ฐ์ ์ฐพ๋ ๊ฒ์ธ๋ฐ
$\rightarrow$ ์ด๋ ๋ด๋ด ๋คํธ์ํฌ์ ๊ฐ layer ๋ณ๋ก (weight, bias)์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ป๊ฒ ์ ๋ฐ์ดํธํด ๋๊ฐ์ง์ ๋ํ ๋ฌธ์ ์ด๋ค.
๊ฐ ๋ฌธ์ ๋ณ ๋ํ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์์คํจ์
- ํ๊ท๋ฌธ์ - MSE(Mean Squared Error)
$$ MSE = \frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}(y_{i}^{(d)}-\hat{y_{i}}^{(d)})^{2} $$
- ๋ถ๋ฅ๋ฌธ์ - CE(Cross Entropy)
$$ CE = -\frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}y_{i}^{(d)}\log{\hat{y_{i}}^{(d)}} $$
- ํ๋ฅ ๋ฌธ์ - MLE(Maximum Likelihood Estimation)
$$ MLE = \frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}\log{N}(y_{i}^{(d)};\hat{y_{i}}^{(d)}, 1) $$
- ์๊ณ ๋ฆฌ์ฆ (Algorithm)
๋ฐ์ดํฐ, ๋ชจ๋ธ, ์์คํจ์๊ฐ ์ฃผ์ด์ก์ ๋ Neural Network๋ฅผ ์ด๋ป๊ฒ ์ค์ผ์ง์ ๋ํ ๊ฒ์ด๋ค.
์์ ๋ด์ฉ์์๋ SGD(first-order-method ๋ฐฉ์์ ์ด์ฉํด neural network์ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ค ํจ์์ ๋ํด 1์ฐจ ๋ฏธ๋ถ)์ ์ด์ฉํ์ฌ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฉํ์ฌ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํํ์์ง๋ง ์ฌ๋ฌ ๋ฌธ์ ์ ๋ค๋ก ์ธํด ์ต๊ทผ์๋ ๋ค๋ฅธ ๋ณํ์ ์ฌ์ฉํ๋ค.
๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด์
ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋ชจ๋ธ ์ต์ ํ(Optimization) + ๋นํ์ต ๋ฐ์ดํฐ๋ฅผ ์ํ ์ค๋ฅ ์ถ๊ฐ(regularizer)๋ฅผ ํผํฉํด์ ์ฌ์ฉํ๋๋ฐ, ์ ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
ํ์ต ๋ฐ์ดํฐ ์ด์ฉํ ๋ชจ๋ธ ์ต์ ํ ๋ฐฉ๋ฒ (Optimization) |
๋นํ์ต ๋ฐ์ดํฐ๋ฅผ ์ํ ์ค๋ฅ ์ถ๊ฐ ๋ฐฉ๋ฒ (Regularizer) |
SGD | Dropout |
Momentum | Early stopping |
NAG | K-Fold Cross validation |
Adagrad | Weight decay |
Adadelta | Batch Normalization |
RMSprop | MixUp |
Ensemble | |
Bayesian Optimization |
'์ธ๊ณต์ง๋ฅ๐พ > ๋ฅ๋ฌ๋' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ธ๊ณต์ง๋ฅ ๋ฅ๋ฌ๋] 0. ๋ฅ๋ฌ๋ ๊ธฐ์ด ์ง์(2) (0) | 2023.04.05 |
---|