[인공지능 딥러닝] 0. 딥러닝 기초 지식(2)

인공지능🐾/딥러닝

[인공지능 딥러닝] 0. 딥러닝 기초 지식(2)

🪄하루🪄 2023. 4. 5. 08:00

728x90

공부를 시작하기 앞서 티스토리 방문자 100명을 달성했다🎇

블로그 방문자 백명 달성!

새로운 사람 백명을 만났다고 생각하면 꽤 대단한 숫자가 아닐까 스스로를 칭찬함과
동시에 더 꾸준히 글을 올리기를 다짐하며! 오늘의 공부를 시작해 보자.

* 이 글은 네이버 부스트 코스의 딥러닝 기초 다지기 강의를 수강하며 정리한 글입니다.

오늘은 딥러닝에서 활용하는 Neural Network 구조와 Multi-Layer Perceptron에 대해 알아보자.

0. Neural Network 란?

~~포유류의 신경망을 모방하고자 하는 시스템이다.~~

(비행기는 새를 모방했지만, 꼭 새의 방식으로만 날지는 않는다.

이게 무슨 말이냐 하면 점차 발전하며 프로펠러나 엔진 등을 추가하고 좋은 성능을 내기 위해서 다양한 연산을 추가하는 과정에서 처음의 목적인 새의 움직임을 모방하는 것에서는 이탈했다는 것이다.)

이와 마찬가지로, 딥러닝이 초기에는 사람의 뇌를 모방하고자 하였으나, 현재는 인간의 뇌를 모방한다는 목적에 훨씬 더 나아가 수학적인 접근방식을 통해 좋은 성능을 내고 있다.

따라서 딥러닝에 대한 더 올바른 정의는 다음과 같다.

function approximators that stack affine transformations followed by nonlinear transformations
: 내가 정의할 function(모델)으로 근사하는 함수로
행렬 곱 연산과 비선형연산(activation function)이 반복적으로 수행된다.

1. 가장 단순한 Neural Network - 1D Linear Neural Network (1차원 선형회귀)

제일 먼저 가장 간단한 Neural Network 구조인 선형회귀에 대해 살펴보자.

1차원 선형회귀 문제는 입력 : 1차원 ⇒ 출력 : 1차원 일 때, 이를 가장 잘 근사하는 $ y=wx+b $ 를 구하는 것이다.

앞서 말했듯, 딥러닝은 데이터, 모델, 손실함수로 정의할 수 있다.

- Data : $ D=\left\{(x_i, y_i) \right\}_{i=1}^{N} $

- Model : $ \hat{y}=wx+b $

- Loss : $ loss=\frac{1}{N} \sum_{i=1}^{N}(y_i-\hat{y_i})^2 $

재차 말하지만, 우리의 목적은 Loss function을 Minimize 하는

⇒ 최적의 파라미터 w, b를 찾는 것이다.

이때, 최적의 w와 b 값을 구하는 많은 알고리즘이 있는데, 그중 back propagation을 사용해 보자.

Step 1. Loss 함수를 각각 w와 b에 대해 편미분 한다.

- Loss 함수의 w에 대한 편미분 방정식 ($\frac{\partial loss}{\partial w}$)

$\frac{\partial loss}{\partial w}=\frac{\partial }{\partial w}\frac{1}{N}\sum_{i=1}^{N}(y_i-\hat{y_i})^2$

$=\frac{\partial }{\partial w}\frac{1}{N}\sum_{i=1}^{N}(y_i-wx_i-b)^2$

$=-\frac{1}{N}\sum_{i=1}^{N}-2(y_i-wx_i-b)x_i $

- Loss 함수의 b에 대한 편미분 방정식($ \frac{\partial loss}{\partial b}$)

$ \frac{\partial loss}{\partial b}=\frac{\partial }{\partial b}\frac{1}{N}\sum_{i=1}^{N}(y_i-\hat{y_i})^2$

$=\frac{\partial }{\partial b}\frac{1}{N}\sum_{i=1}^{N}(y_i-wx_i-b)^2$

$=-\frac{1}{N}\sum_{i=1}^{N}-2(y_i-wx_i-b)x_i $

Step 2. 각 파라미터에 편미분값을 반영해 업데이트한다.(Gradient Decent 방식 이용)

cf) Gradient Decent : 각 파라미터에 loss function의 편미분 값을 빼는 방법(⇔Gradient Ascent)

$ w \leftarrow w-\eta \frac{\partial loss}{\partial w} $

$ b \leftarrow b-\eta \frac{\partial loss}{\partial b} $

그렇다면 $\eta$ : Stepsize(=learning rate)는 어떻게 정할까?

너무 크면 Loss 함수의 최솟값을 계산하지 못하고 계속 커져는 방향으로 나아간다.
너무 작으면 매우 느린 속도로 학습이 진행되기 때문에 비효율적이다.

알아서 적당히 정해야 하는데,

⇒ 다음 강의의 최적화(Optimization) 방법론에서 Adaptive learning rate에 대해 학습하게 되는데 이 방법을 이용하면 step size를 자동으로 바꿔준다고 한다.

2. Linear Neural Network

앞의 내용을 확장해 보자.

입력 : m차원 ⇒ 출력 : n차원 일 때의 선형 모델을 찾아보자.

행렬변환(행렬곱=affine transform) 서로 다른 차원을 매핑하는 것이다.

수식적으로는

$y=W^Tx+b$ (y, x, b는 벡터이고, W는 행렬)으로 정의할 수 있고, 그림으로 나타내면 다음과 같다.

3. 어떻게 딥러닝이 좋은 성능을 낼까

~~인간의 뇌를 모방했기 때문에의 대답에서 벗어나보자.~~

딥러닝의 표현력에 표현력에 대한 유명한 정리가 있다.

Universal Approximators theorem(정리)
there is a single hidden layer feedforward network that approximates any measurable function to any desired degree of accuracy on some compact set K
: 히든 레이어가 1개 있는 뉴럴 네트워크의 표현력은 대부분의 연속적인 함수(우리가 표현하고자 하는 대부분의 함수)에 대해 나타낼 수 있다.

~~하지만, 이 가설은 존재성만을 보인다. 내가 학습시킨 뉴럴 네트워크가 목적함수에 어떻게 다가갈 수 있는지에 대한 의미는 아니다.~~

4. Multi Layer Perceptron 다층 레이어 퍼셉트론

자, 이제 앞서 말했던 딥러닝의 정의를 다시 한번 떠올려 보자.

내가 정의할 function(모델)으로 근사하는 함수로

행렬 곱 연산(affine transformations)과 비선형연산(activation function)이

반복적으로 수행되는 방식으로 작동한다.

따라서 일반적인 딥러닝 모델은 다음과 같은 식으로 표현할 수 있다.

선형연산⇒ 비선형연산(=nonlinear transformation) ⇒ 선형연산,,,, 의 반복

cf) 용어정리

선형연산(=행렬곱연산=affine transformation), 비선형 연산(=활성화함수=nonlinear transformation)

그렇다면 왜 비선형 연산을 포함시켜야 할까?

모든 선형 연산은 다른 하나의 선형 연산으로 표현할 수 있기 때문에 층을 구성하지 못하기 때문이다.

x에 대해 행렬 $W_1, W_2$를 곱했다고 생각해 보자.

$W_1W_2$의 행렬곱은 다른 행렬 $W_3$로 한 번에 표현할 수 있다.

$W_1W_2x = W_3x$

행렬의 다음과 같은 특징으로 인해 Layer(층)을 추가할 수 없기 때문에 비 선형 연산을 추가하여 층을 표현한다.

이제 비선형 연산(nonlinear function)에 대해 조금 더 살펴보자.

비선형 연산으로 보통 Activation function(활성함수)를 사용하는데 여러 가지 종류가 있다.

Step function
RELU
Sigmoid
Hyperbolic Tangent

자, 딥러닝에 대한 모든 구성 요소(선형연산, 비선형연산) 들을 살펴봤으니 이제 다중 레이어 퍼셉트론을 표현해 보자.

예제) 3 Layer 중에 2 hidden layer가 있는 뉴럴 네트워크 표현하기.

$ y=W_{3}^{T}h_2=W_{3}^{T}\rho_2(W_{2}^{T}h_1)=W_{3}^{T}\rho_2 W_{2}^{T}\rho_1(W_{1}^{T}x) $

~~식을 통해 살펴본 용어의 특징~~

~~hidden layer : 선형연산과 비선형연산으로 구성~~
~~layer : 선형 연산을 몇 번 했는지~~

728x90

저작자표시 비영리 변경금지

'인공지능🐾 > 딥러닝' 카테고리의 다른 글

[인공지능 딥러닝] 0. 딥러닝 기초 지식(1) (1)	2023.03.19

현재글[인공지능 딥러닝] 0. 딥러닝 기초 지식(2)

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

🐇꾸준히, 한걸음씩☘️