코딩헤딩

Deep learning[딥러닝] 신경망계층 성능향상 본문

머신러닝 | 딥러닝

Deep learning[딥러닝] 신경망계층 성능향상

멈머이 2024. 1. 4. 22:59
728x90

<성능 향상 방법>
  1. 데이터 증가시키기
  2. 하이퍼파라미터 튜닝
     => 반복 횟수 증가
     => 계층 추가 또는 제거(일반적으로 추가)
     => 이외 하이퍼파라미터들...

 

 

1. 성능향상 - 은닉계층추가

 

* 모델 생성하기

model = keras.Sequential()
model

 

* 입력 계층 추가하기

model.add(keras.layers.Flatten(input_shape=(28, 28)))

 

  - 전처리 계층으로 추가
Flatten() : 차원축소 전처리 계층(1차원으로 축소)
          : 훈련에 영향을 미치지는 않음
          : 일반적으로 입력계층 다음에 추가하거나, 입력계층으로 사용되기도 함
          : 이미지 데이터 처리 시에 주로 사용됨

 

* 중간계층 = 은닉계층(hidden layer) 생성하기

model.add(keras.layers.Dense(100, activation="relu"))

 - Dense() 계층은 모델성능에 영향을 미침.

 

* 출력 계층(output layer) 생성하기

model.add(keras.layers.Dense(10, activation="softmax"))

 

* 모델에 추가된 계층 모두 확인하기

model.summary()


2. 성능향상 - 옵티마이저(Optimizer)


<옵티마이저 (Optimizer)>
  - 옵티마이저 설정 위치 : compile()시에 설정함
  - 손실을 줄여나가기 위한 방법을 설정함
  - 손실을 줄여나가는 방법을 보통 "경사하강법"이라고 함,
  - '경사하강법"을 이용한 여러가지 방법들 중 하나를 선택하는 것이 옵티마이저 선택.
  - 옵티마이저(Optimizer) 종류 : SGD(확률적 경사하강법), Adagrad, RMSProp, Adam이 있음. 

  * SGC(확률적경경사하강법)
     - 현재 위치에서 기울어진 방향을 찾을 때 사용
       => 지그재그 모양으로 탐색해 나가는 방법

  * Adagrad
     - 학습율을 적절하게 설정하기 위해 학습률 감소라는 기술을 사용
     - 학습 진행중에 학습률을 줄여가는 방법은 사용
     - 처음에는 학습율을 크게 학습하다가, 점점 작게 한다는 의미

  * RMSProp
     - Adagrad의 단점을 보완한 방법
     - Adagrad는 학습량을 점점 작게 학습하기 때문에 학습량이 0이 되어 전혀 갱신되지 않는(학습되지 않는) 시점에 

       발생할 수 있는 단점이 있음.
     - 이한 단점으 보완하여 과거의 기울기 값을 반영하는 방식 사용
     - 먼 과거의 기울기(경사) 값은 조금 반영하고, 최근 기울기(경사)를 많이 반영
     - Optimizer의 기본값(default)으로 사용됨

  * Adam
     - 공이 굴러가듯이 모멘텀(momentum -> 관성)과  Adagrad를 융합한 방법
     - 자주 사요되는 기법으로, 좋은 결과를 얻을 수 있는 방법으로 유명함
     ** 모멘텀 : 관성과 가속도르 적용하여 이동하던 방향으로 좀 더 유연하게 작동함
     - 메모리 사용이 많은 단점이 있음(과거 데이터르 저장해 놓음)

 

* 모델 생

model.compile(
    ### 옵티마이저 정의 : 손실을 줄여나가는 방법
    optimizer="sgd",
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"
)

* 훈련

model.fit(train_scaled, train_target, epochs=10)

<학습률을 적용하는 방법>
  - 사용되는 4개의 옵티마이저를 객체로 생성하여, learning_rate(학습률) 값을 설정할 수 있음
  - 학습률 : 보톡이라고 생각하면 된다.
  - 학습률이 작을 수록 보복이 적다고 보면 된다.
  - 가장 손실이 적은 위치를 찾아서 움직이게 된다.
  - 이 때 가장 손실이 적은 위치는 모델이 스스로 찾아서 움직이게 된다.(사람 관여 x)
  - 학습률의 기본값은 0.01을 시용(사용값의 범위 0.1 ~ 0.001 정도)

<과적합을 해소하기 위한 튜닝 방법으로 사용됨>
  - 과대적합이 일어난 경우 : 학습률을 크게
  - 과소적합이 일어난 경우 : 학습률을 작게
  - 과대 / 과소를 떠나서 직접 값의 범위를 적용하여 튜닝을 수행한 후 가장 일반화 시점의 학습률을 찾는 것이 중요함.

sgd = keras.optimizers.SGD(learning_rate=0.1)

"""모델생성(compile)"""
model.compile(
    optimizer=sgd,
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"
)

* 훈련

model.fit(train_scaled, train_target, epochs=5)

3. 모멘텀(Momentum) 직접 적용하기

<모멘텀(Momentum)>
  - 과거의 방샹(기울기)를 적용하여 -> 관성을 적용시키는 방법
  - 기본적으로 0.9 이상의 값을 적용시킴
  - 보통 nesterov-Ture 속성과 합계 사용됨
     => nesterov-Ture : 모멘텀 방향보다 조금 더 앞서서 경사를 계산하는 방식(미리 체크)

  - momentum 속성을 사용할 수 있는 옵티마이저 : SGD, RMSProp

 

* SGD

sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True, learning_rate=0.1)
model.compile(
    optimizer=sgd,
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"
)

* Adagrad

adagrad = keras.optimizers.Adagrad()
model.compile(
    optimizer=adagrad,
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"    
)

"""또는"""

model.compile(
    optimizer="adagrad",
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"     
)

* RMSProp

rmsprop = keras.optimizers.RMSprop()
model.compile(
    optimizer=rmsprop,
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"    
)

"""또는"""

model.compile(
    optimizer="rmsprop",
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"     
)

* Adam

adam = keras.optimizers.Adam()
model.compile(
    optimizer=adam,
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"    
)

"""또는"""

model.compile(
    optimizer="adam",
    loss="sparse_categorical_crossentropy", 
    metrics="accuracy"     
)

2 가지 형태로 모두 쓸 수 있다.

728x90