1. 딥러닝 등장 배경
- Rule - based AI → 머신러닝
Rule - based AI (규칙기반)
- 사람이 직접 명시적인 규칙을 작성
- 복잡한 문제나 새로운 상황에 대응하기 어렵다
머신러닝 (학습기반)
- 모델이 직접 데이터로부터 규칙과 패턴을 자동으로 학습
- 초기 머신러닝 모델
- 선형 회귀
- 연속값 예측 → 선형(직선) 관계만 파악 가능
- 로지스틱 회귀
- 이진 분류 → 복잡한 데이터 분류에 한계
- 퍼셉트론
- 이진 분류(초기 신경망) → 완벽히 직선으로 나뉠 때만 정답 도출
=> 공통점: 데이터로 스스로 학습하지만, 구조가 단순하고 결정경계가 선형이다
※선형 결정경계
→ 입력 공간에서 두 클래스를 나누는 경계가 선형 형태로 나타나는 경우
- 결정경계 : 데이터를 나누는 기준선
- 선형 : 기준선이 공간상에서 단 하나의 직선임
2. 퍼셉트론
인간의 뇌신경세포(뉴런)가 신호를 처리하는 방식을 수학적으로 단순화한 모델
- 생물학적 뉴런 vs 인공 뉴런(퍼셉트론)의 대응
- 수상돌기(입력 수신) → 입력(x)
- 체세포 (신호 통합) → 가중합( $z = w^T x + b$ )
- 축삭 (신호 출력) → 활성화 함수 (f) 를 거친 출력 (a)
- 퍼셉트론 동작 원리
입력 → 가중합 → 활성화 → 출력
$$z = w^T x + b$$
- 가중합: 입력 벡터 x에 가중치 w를 곱하고 편향 b를 더함
$$a = f(z)$$
- 활성화: 계산된 가중합을 활성화 함수에 통과시켜 최종 출력을 만듦.
=> 퍼셉트론은 먼저 데이터를 나누는 기준선 하나를 만들고, 활성화 함수를 통해 데이터 구분
- 퍼셉트론의 한계
퍼셉트론이 2차원 공간에서 데이터를 나누는 기준선(결정경계)은 단 하나의 직선
직선하나로 나눌 수 있는 데이터에는 강하지만, 복잡한 비선형 문제는 약함.
- XOR 문제: 두 클래스가 대각선으로 엇갈려 있어 직선 하나로는 분리 불가능
- 동심원 데이터: 데이터가 원형으로 둘러싸인 형태, 직선 경계로는 분리 불가능
3. 한계 극복: 다층 퍼셉트론(MLP) 등장
단층 퍼셉트론의 한계를 극복하기 위해 입력층과 출력층 사이에 은닉층 추가

- 은닉층
- 정의 : 입력과 출력 사이에서 특징을 변환 , 추출 하는 중간 층
- 역할 : 판단을 한 번에 끝내지 않고, 입력을 여러 부분 판단으로 분해하여 다음 층에서 조합할 수 있도록 유용한 표현 공간으로 변환함
- 은닉층이 깊어지고 뉴런 수가 늘수록 정교한 표현 학습 가능
- 복잡한 결정경계 형성
1) 각 은닉 뉴런은 서로 다른 직선 기준(하프스페이스)을 만듦.
2) 출력층이 이 여러 개의 직선 조각들을 조합(선형 결합)
3) 결과적으로 곡선처럼 보이는 복잡한 다각형 영역(결정경계) 형성
→ 비선형 문제 해결 가능
4. 비선형 활성화 함수
- 왜 선형 모델만 쌓으면 안 될까?
선형 변환을 여러 번 합성하는 것은 결국 또 다른 하나의 선형 변환으로 치환됨.
- 비선형 활성화 함수 없이 층만 쌓아 봤자 결정경계는 여정히 직선/초평면 → 표현력 증가 없음
- 복잡한 패턴 표현을 위해서는 비선형 활성화가 필요
- 비선형 활성화 함수
1) Sigmoid 함수

- 수식/ 범위
- 0 < y < 1
- S자 곡선
- 장점
- 출력이 0~1 사이라 확률적 의미로 직관적임
- 이진 분류의 최종 출력층에 주로 사용
- 단점
- 입력 절댓값이 크면 미분값이 0에 가까워지는 기울기 소실 발생
- 출력이 0 중심이 아님
- 지수 연산(exp) 비용이 커서 은닉층에서 드물게 사용
2) ReLU 함수

- 수식/범위
- $\max(0, x)$
- 음수 : 0
- 양수 : x
- 장점
- 계산이 매우 단순하고 학습이 빠름
- Sigmoid 대비 기울기 소실 문제를 완화하여 은닉층의 표준으로 사용
- 단점
- 음수 구간에서는 뉴런이 꺼지는 문제(dying ReLU) 발생
- x=0에서 미분 불가
3) tanh 함수

- 수식/범위
- -1 < y < 1
- S자 곡선
- 장점
- 중앙 정렬(Zero-centered) 되어 있어, 그래디언트 방향 왜곡
- 이 적음
- 학습이 더 안정적
- 단점
- 입력이 크면 여전히 기울기 소실이 발생
4) Softmax

- 수식
- $p_{i}=\frac{\exp(z_{i})}{\sum \exp(z_{j})}$
- z(각 클래스 점수), p(확률), exp(지수 함수)
- 특징
- 모든 출력값을 0과 1 사이로 만듦.
- 전체 합이 1이 되도록 변환
- 용도
- 모델의 출력을 직관적인 확률 분포로 바꿈 → 다중 분류의 출력층에서 사용
5. 계층적 학습
비선형 활성화 함수와 여러 층이 결합 → 신경망은 데이터를 점진적이고 계층적으로 이해함
- 이미지 인식의 계층적 학습
1) 저층 (Low-level)
- 선, 모서리(에지), 방향성 같은 단순하고 기본적인 패턴만 감지
- ex) Sobel, Gabor 필터
2) 중충 (Mid-level)
- 저층에서 찾은 선과 모서리들을 조합해 눈, 코, 입과 같은 부분적인 부위 구조 인식
- 불변성: 위치, 스케일 변화에 점진적 견고성
- 효과: 파트 기반 인식으로 의미적 구조 형성
3) 고층 (High-level)
- 중층의 부위 정보들을 통합하여 '얼굴' 이라는 전체적인 고차원 개념을 형성