카테고리 없음

3-1 딥러닝 기초: 인공신경망과 퍼셉트론

kimyeji2358 2026. 3. 26. 22:32

1. 딥러닝 등장 배경

- Rule - based AI → 머신러닝

Rule - based AI (규칙기반)

- 사람이 직접 명시적인 규칙을 작성

- 복잡한 문제나 새로운 상황에 대응하기 어렵다

 

머신러닝 (학습기반)

- 모델이 직접 데이터로부터 규칙과 패턴을 자동으로 학습

 

- 초기 머신러닝 모델

  • 선형 회귀
    • 연속값 예측 → 선형(직선) 관계만 파악 가능
  • 로지스틱 회귀
    • 이진 분류 → 복잡한 데이터 분류에 한계
  • 퍼셉트론
    • 이진 분류(초기 신경망) → 완벽히 직선으로 나뉠 때만 정답 도출

 

=> 공통점: 데이터로 스스로 학습하지만, 구조가 단순하고 결정경계가 선형이다

 

※선형 결정경계

→ 입력 공간에서 두 클래스를 나누는 경계가 선형 형태로 나타나는 경우

  • 결정경계 : 데이터를 나누는 기준선
  • 선형 : 기준선이 공간상에서 단 하나의 직선임

 

2. 퍼셉트론

 

인간의 뇌신경세포(뉴런)가 신호를 처리하는 방식을 수학적으로 단순화한 모델

 

- 생물학적 뉴런 vs 인공 뉴런(퍼셉트론)의 대응

  • 수상돌기(입력 수신) → 입력(x)
  • 체세포 (신호 통합) → 가중합( $z = w^T x + b$ )
  • 축삭 (신호 출력) → 활성화 함수 (f) 를 거친 출력 (a)

- 퍼셉트론 동작 원리

입력 → 가중합 → 활성화 → 출력

$$z = w^T x + b$$

  • 가중합: 입력 벡터 x에 가중치 w를 곱하고 편향 b를 더함

$$a = f(z)$$

  • 활성화: 계산된 가중합을 활성화 함수에 통과시켜 최종 출력을 만듦.

=> 퍼셉트론은 먼저 데이터를 나누는 기준선 하나를 만들고, 활성화 함수를 통해 데이터 구분

 

- 퍼셉트론의 한계

퍼셉트론이 2차원 공간에서 데이터를 나누는 기준선(결정경계)은 단 하나의 직선

직선하나로 나눌 수 있는 데이터에는 강하지만, 복잡한 비선형 문제는 약함.

  • XOR 문제: 두 클래스가 대각선으로 엇갈려 있어 직선 하나로는 분리 불가능
  • 동심원 데이터: 데이터가 원형으로 둘러싸인 형태, 직선 경계로는 분리 불가능

 

3. 한계 극복: 다층 퍼셉트론(MLP) 등장

단층 퍼셉트론의 한계를 극복하기 위해 입력층과 출력층 사이에 은닉층 추가

- 은닉층

  • 정의 : 입력과 출력 사이에서 특징을 변환 , 추출 하는 중간 층
  • 역할 : 판단을 한 번에 끝내지 않고, 입력을 여러 부분 판단으로 분해하여 다음 층에서 조합할 수 있도록 유용한 표현 공간으로 변환함
  • 은닉층이 깊어지고 뉴런 수가 늘수록 정교한 표현 학습 가능

- 복잡한 결정경계 형성

1) 각 은닉 뉴런은 서로 다른 직선 기준(하프스페이스)을 만듦.

2) 출력층이 이 여러 개의 직선 조각들을 조합(선형 결합)

3) 결과적으로 곡선처럼 보이는 복잡한 다각형 영역(결정경계) 형성

→ 비선형 문제 해결 가능

 

4. 비선형 활성화 함수

- 왜 선형 모델만 쌓으면 안 될까?

선형 변환을 여러 번 합성하는 것은 결국 또 다른 하나의 선형 변환으로 치환됨.

$$y = W_3(W_2(W_1x)) \Rightarrow y = Wx$$
  • 비선형 활성화 함수 없이 층만 쌓아 봤자 결정경계는 여정히 직선/초평면 → 표현력 증가 없음
  • 복잡한 패턴 표현을 위해서는 비선형 활성화가 필요

- 비선형 활성화 함수 

1) Sigmoid 함수

 

- 수식/ 범위

  • 0 < y < 1
  • S자 곡선

- 장점

  • 출력이 0~1 사이라 확률적 의미로 직관적임
  • 이진 분류의 최종 출력층에 주로 사용

- 단점

  • 입력 절댓값이 크면 미분값이 0에 가까워지는 기울기 소실 발생
  • 출력이 0 중심이 아님
  • 지수 연산(exp) 비용이 커서 은닉층에서 드물게 사용

 

2) ReLU 함수

- 수식/범위

  • $\max(0, x)$
  • 음수 : 0
  • 양수 : x

- 장점

  • 계산이 매우 단순하고 학습이 빠름
  • Sigmoid 대비 기울기 소실 문제를 완화하여 은닉층의 표준으로 사용

- 단점

  • 음수 구간에서는 뉴런이 꺼지는 문제(dying ReLU) 발생
  • x=0에서 미분 불가

3) tanh 함수

- 수식/범위

  • -1 < y < 1
  • S자 곡선

- 장점

  • 중앙 정렬(Zero-centered) 되어 있어, 그래디언트 방향 왜곡
  • 이 적음
  • 학습이 더 안정적

- 단점

  • 입력이 크면 여전히 기울기 소실이 발생

 

4) Softmax

 

- 수식

  • $p_{i}=\frac{\exp(z_{i})}{\sum \exp(z_{j})}$
  • z(각 클래스 점수), p(확률), exp(지수 함수)

- 특징

  • 모든 출력값을 0과 1 사이로 만듦.
  • 전체 합이 1이 되도록 변환

- 용도

  • 모델의 출력을 직관적인 확률 분포로 바꿈 → 다중 분류의 출력층에서 사용

5. 계층적 학습

비선형 활성화 함수와 여러 층이 결합 → 신경망은 데이터를 점진적이고 계층적으로 이해함

 

- 이미지 인식의 계층적 학습

1) 저층 (Low-level)

  • 선, 모서리(에지), 방향성 같은 단순하고 기본적인 패턴만 감지
  • ex) Sobel, Gabor 필터

 

2) 중충 (Mid-level)

  • 저층에서 찾은 선과 모서리들을 조합해 눈, 코, 입과 같은 부분적인 부위 구조 인식
  • 불변성: 위치, 스케일 변화에 점진적 견고성
  • 효과: 파트 기반 인식으로 의미적 구조 형성

 

3) 고층 (High-level)

  • 중층의 부위 정보들을 통합하여 '얼굴' 이라는 전체적인 고차원 개념을 형성