์ธ๊ณต์ง€๋Šฅ๐Ÿพ/๋”ฅ๋Ÿฌ๋‹

[์ธ๊ณต์ง€๋Šฅ ๋”ฅ๋Ÿฌ๋‹] 0. ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ดˆ ์ง€์‹(1)

๐Ÿช„ํ•˜๋ฃจ๐Ÿช„ 2023. 3. 19. 02:16
728x90

* ์ด ๊ธ€์€ ๋„ค์ด๋ฒ„ ๋ถ€์ŠคํŠธ ์ฝ”์Šค์˜ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ดˆ ๋‹ค์ง€๊ธฐ ๊ฐ•์˜๋ฅผ ์ˆ˜๊ฐ•ํ•˜๋ฉฐ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค.

 

 

์˜ค๋Š˜์€ ์ธ๊ณต์ง€๋Šฅ์˜ ํ•˜์œ„ ํ•ญ๋ชฉ์ธ ๋”ฅ๋Ÿฌ๋‹์˜ ์ •์˜์™€ ๊ตฌ์„ฑ์š”์†Œ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

 

0. ์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ์ •์˜

์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

์ธ๊ณต์ง€๋Šฅ : ์‚ฌ๋žŒ์˜ ์ง€๋Šฅ์„ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ

๋จธ์‹ ๋Ÿฌ๋‹ : ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ํ•™์Šต์œผ๋กœ ์‚ฌ๋žŒ์˜ ์ง€๋Šฅ์„ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ

๋”ฅ๋Ÿฌ๋‹ : ์ธ๊ณต ์‹ ๊ฒฝ๋ง(Neural network) ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ํ•™์Šต์œผ๋กœ ์‚ฌ๋žŒ์˜ ์ง€๋Šฅ์„ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ

 

์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ํฌํ•จ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

- ์ง‘ํ•œ ์—ฐ์‚ฐ์œผ๋กœ ํ‘œํ˜„ 

์ธ๊ณต์ง€๋Šฅ $\supset$ ๋จธ์‹ ๋Ÿฌ๋‹ $\supset$ ๋”ฅ๋Ÿฌ๋‹

 

- ๋ฒค ๋‹ค์ด์–ด ๊ทธ๋žจ์œผ๋กœ ํ‘œํ˜„

์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ํฌํ•จ๊ด€๊ณ„

 

์ธ๊ณต์ง€๋Šฅ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹ ์ค‘ ์ด๋ฒˆ ๊ฐ•์˜์—์„œ ์ฃผ์š”ํ•˜๊ฒŒ ๋‹ค๋ฃจ๋Š” ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณด์ž.

 

 

1. ๋”ฅ๋Ÿฌ๋‹์˜ ๊ตฌ์„ฑ ์š”์†Œ

๋”ฅ๋Ÿฌ๋‹์˜ ๊ตฌ์„ฑ์š”์†Œ๋Š” ํฌ๊ฒŒ ๋„ค๊ฐ€์ง€์ด๋‹ค.

โ‘  ๋ชจ๋ธ์— ํ™œ์šฉํ•  ๋ฐ์ดํ„ฐ(Data)

โ‘ก ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™˜ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ๋ชจ๋ธ(Model)

โ‘ข ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๋Š” ์†์‹คํ•จ์ˆ˜(Loss function)

โ‘ฃ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๊ณ  ์ ์šฉํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜(Algorithm)

 

๊ตฌ์„ฑ์š”์†Œ๋“ค์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.

 

- ๋ฐ์ดํ„ฐ (Data)

์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€๋Š” ํ’€๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์— ์˜ํ•ด ์ขŒ์šฐ๋˜๋Š”๋ฐ, ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

โ‘  ๋ถ„๋ฅ˜ (Classification)

: ๋ถ„๋ฅ˜๋Š” ์ด๋ฏธ์ง€ $\rightarrow$ ๋ผ๋ฒจ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

๋ถ„๋ฅ˜๋ฌธ์ œ : Input(์‚ฌ์ง„)์„ Output([๊ณ ์–‘์ด] ๋ผ๋ฒจ)๋กœ ๋ณ€ํ™˜

 

โ‘ก ์ด๋ฏธ์ง€ ํ”ฝ์…€๋ณ„ ๋ถ„๋ฅ˜ (Sementic Segmentation)

: ์ด๋ฏธ์ง€ ๊ฐ ํ”ฝ์…€ $\rightarrow$ ํ•ด๋‹นํ•˜๋Š” ํด๋ž˜์Šค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค. 

 

ํ”ฝ์…€๋ณ„ ๋ถ„๋ฅ˜๋ฌธ์ œ : Input(์‚ฌ์ง„์˜ ๊ฐ๊ฐ์˜ ํ”ฝ์…€)์„ Output(ํ•ด๋‹นํ•˜๋Š” ํด๋ž˜์Šค [๋ฉ, ๋ƒฅ, -] )๋กœ ๋ณ€ํ™˜

 

โ‘ข ๊ฐ์ฒด ๊ฒ€์ถœ (Object Detection)

: ์ด๋ฏธ์ง€ ์•ˆ์˜ ๊ฐ์ฒด๋ฅผ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๊ฐ ๊ฐ์ฒด๋“ค์˜ boundary box๋ฅผ ์ฐพ๊ณ  ํ•ด๋‹นํ•˜๋Š” ํด๋ž˜์Šค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

๊ฐ์ œ ๊ฒ€์ถœ ๋ฌธ์ œ : Input(์‚ฌ์ง„)์—์„œ ๊ฐ์ฒด๋ฅผ ์ธ์‹(boundary box๋กœ ๊ฒฝ๊ณ„ํ‘œ์‹œ)ํ•˜๊ณ  Output(๊ฐ์ฒด๋ฅผ [๊ณ ์–‘์ด, ๊ฐ•์•„์ง€] ๋ผ๋ฒจ)๋กœ ๋ณ€ํ™˜

 

โ‘ฃ ํฌ์ฆˆ ์ถ”์ • (Pose Estimation)

: ์ด๋ฏธ์ง€ ์•ˆ์˜ ์‚ฌ๋žŒ $\rightarrow$ ์‹ ์ฒด ๊ด€์ ˆ์˜ ์ •๋ณด๋ฅผ ์•Œ์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค.

 

ํฌ์ฆˆ ์ถ”์ • ๋ฌธ์ œ : Input(์‚ฌ๋žŒ ์‚ฌ์ง„)์—์„œ Output(๊ฐ ์‹ ์ฒด ๊ด€์ ˆ์˜ ์ขŒํ‘œ[์œ„์น˜์™€ ๋ฐฉํ–ฅ])๋ฅผ ์ถ”์ •

 

โ‘ค ์‹œ๊ฐ์  ์งˆ์˜์‘๋‹ต (Visual QnA)

์ด๋ฏธ์ง€์™€ ์งˆ๋ฌธ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ $\rightarrow$ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ์ฐพ๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

์‹œ๊ฐ์  ์งˆ์˜์‘๋‹ต ๋ฌธ์ œ : Input(์‚ฌ์ง„๊ณผ ์งˆ๋ฌธ)์ด ์ฃผ์–ด์ง€๋ฉด Output(๋‹ต๋ณ€)์„ ๋ฐ˜ํ™˜

 

- ๋ชจ๋ธ (Model)

์ด๋ฏธ์ง€/ํ…์ŠคํŠธ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ์›ํ•˜๋Š” ์˜๋„๋Œ€๋กœ ๋ฐ”๊พธ์–ด ์ฃผ๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ๋กœ๋Š” Alexnet, GoogLeNet, ResNet, DenseNet, Lstm, Deep Auto Encoders, GAN ๋“ฑ์ด ์žˆ๋‹ค.

๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด๋„ ๋ชจ๋ธ์— ๋”ฐ๋ผ ์ •ํ™•๋„๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ, ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์„ ํƒํ•˜์—ฌ์•ผ ํ•œ๋‹ค.

 

 

- ์†์‹ค ํ•จ์ˆ˜ (Loss function)

๋ฐ์ดํ„ฐ, ๋ชจ๋ธ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ํ•™์Šต์‹œํ‚ฌ์ง€ ๋ฐฉํ–ฅ์„ฑ์„ ์žก์•„์ฃผ๋Š” ํ•จ์ˆ˜์ด๋‹ค.

๋ชฉํ‘œ์˜ proxy(๊ทผ์‚ฌ์น˜)๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋Š”๋ฐ, ์†์‹คํ•จ์ˆ˜๊ฐ€ ๊ฐ์†Œ๊ฐ€ ๋ฐ˜๋“œ์‹œ ๋ฌธ์ œ์˜ ๋ชฉํ‘œ(๋ถ„๋ฅ˜, ํšŒ๊ท€ ๋“ฑ)์˜ Error์ด ์ค„์–ด๋“œ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋ชฉํ‘œ๋ฅผ ์ž˜ ๊ทผ์‚ฌํ•˜๋Š” ํ•™์Šต๋ฐฉํ–ฅ์„ ๊ฐ€์ง„ ์†์‹คํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

 

๋”ฅ๋Ÿฌ๋‹์˜ ๊ด€์ ) ์†์‹คํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•œ๋‹ค๋Š” ๊ฒƒ์€

$\rightarrow$ ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์˜ ๊ฐ layer ๋ณ„๋กœ ์ตœ์ ์˜ (weight, bias) ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์ธ๋ฐ

$\rightarrow$ ์ด๋Š” ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์˜ ๊ฐ layer ๋ณ„๋กœ (weight, bias)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์—…๋ฐ์ดํŠธํ•ด ๋‚˜๊ฐˆ์ง€์— ๋Œ€ํ•œ ๋ฌธ์ œ์ด๋‹ค.

 

๊ฐ ๋ฌธ์ œ๋ณ„ ๋Œ€ํ‘œ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์†์‹คํ•จ์ˆ˜

  • ํšŒ๊ท€๋ฌธ์ œ- MSE(Mean Squared Error)

$$ MSE = \frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}(y_{i}^{(d)}-\hat{y_{i}}^{(d)})^{2} $$

  • ๋ถ„๋ฅ˜๋ฌธ์ œ - CE(Cross Entropy)

$$ CE = -\frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}y_{i}^{(d)}\log{\hat{y_{i}}^{(d)}} $$

  • ํ™•๋ฅ ๋ฌธ์ œ - MLE(Maximum Likelihood Estimation)

$$ MLE = \frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D}\log{N}(y_{i}^{(d)};\hat{y_{i}}^{(d)}, 1) $$

 

- ์•Œ๊ณ ๋ฆฌ์ฆ˜ (Algorithm)

๋ฐ์ดํ„ฐ, ๋ชจ๋ธ, ์†์‹คํ•จ์ˆ˜๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ Neural Network๋ฅผ ์–ด๋–ป๊ฒŒ ์ค„์ผ์ง€์— ๋Œ€ํ•œ ๊ฒƒ์ด๋‹ค.

์•ž์„  ๋‚ด์šฉ์—์„œ๋Š” SGD(first-order-method ๋ฐฉ์‹์„ ์ด์šฉํ•ด neural network์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์†์‹ค ํ•จ์ˆ˜์— ๋Œ€ํ•ด 1์ฐจ ๋ฏธ๋ถ„)์„ ์ด์šฉํ•˜์—ฌ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€์ง€๋งŒ ์—ฌ๋Ÿฌ ๋ฌธ์ œ์ ๋“ค๋กœ ์ธํ•ด ์ตœ๊ทผ์—๋Š” ๋‹ค๋ฅธ ๋ณ€ํ˜•์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด์„œ

ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ๋ชจ๋ธ ์ตœ์ ํ™”(Optimization) + ๋น„ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ์˜ค๋ฅ˜ ์ถ”๊ฐ€(regularizer)๋ฅผ ํ˜ผํ•ฉํ•ด์„œ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

ํ•™์Šต ๋ฐ์ดํ„ฐ ์ด์šฉํ•œ ๋ชจ๋ธ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•
(Optimization)
๋น„ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ์˜ค๋ฅ˜ ์ถ”๊ฐ€ ๋ฐฉ๋ฒ•
(Regularizer)
SGD Dropout
Momentum Early stopping
NAG K-Fold Cross validation
Adagrad Weight decay
Adadelta Batch Normalization
RMSprop MixUp
  Ensemble
  Bayesian Optimization

 

 

 

 

 

 

728x90