kimyeji2358 님의 블로그

5. 선형대수학

kimyeji2358 — Mon, 11 May 2026 02:17:18 +0900

1. 직교 집합과 정규 직교 집합 (Orthogonal and Orthonormal Sets)

직교 투영을 이해하기 위해 먼저 벡터 집합의 성질을 정의함.

직교 집합 (Orthogonal Set): 벡터 집합 $\{u_{1},...,u_{p}\}$ 내의 서로 다른 모든 벡터 쌍이 직교하는 집합임. 즉, $i \neq j$일 때 $u_{i} \cdot u_{j} = 0$을 만족함.
정규 직교 집합 (Orthonormal Set): 직교 집합이면서 각 벡터가 단위 벡터(크기가 1)인 집합임
특징: 임의의 기저는 그램-슈미트 과정(Gram-Schmidt process)을 통해 직교 또는 정규 직교 기저로 변환 가능하며, 이는 QR 분해(QR factorization)로 이어짐.

2. 직선 위로의 직교 투영 (Projection onto a Line)

1차원 부분공간(직선) $L$ 위로 벡터 $y$를 투영하는 경우를 살펴봄.

일반 공식: 벡터 $u$가 만드는 직선 $L$ 위로의 투영 $\hat{y}$는 다음과 같음.

$$\hat{y} = \text{proj}_{L} y = \frac{y \cdot u}{u \cdot u} u$$

단위 벡터인 경우: 만약 $u$가 단위 벡터라면 $u \cdot u = 1$이 되므로 식이 단순화됨.

$$\hat{y} = (y \cdot u) u$$

기하학적 의미: 벡터 $y - \hat{y}$는 직선 $L$과 수직(직교)을 이룸.

3. 평면 및 부분공간 위로의 직교 투영 (Projection onto a Plane/Subspace)

2차원 이상의 부분공간 $W$ 위로 투영할 때는 직교 기저의 성질을 이용함.

직교 기저 ${u_1, u_2}$를 가질 때: 각 기저 벡터에 대한 투영을 독립적으로 계산하여 더함.

$$\hat{y} = \text{proj}_{W} y = \frac{y \cdot u_1}{u_1 \cdot u_1} u_1 + \frac{y \cdot u_2}{u_2 \cdot u_2} u_2$$

정규 직교 기저일 때: 각 분모가 1이 되어 계산이 매우 간편해짐.

$$\hat{y} = (y \cdot u_1) u_1 + (y \cdot u_2) u_2$$

$y \in W$인 경우: 투영하려는 벡터가 이미 그 평면(부분공간) 안에 있다면, 투영 결과는 자기 자신인 $y$와 같음.

4. 선형 변환 관점에서의 행렬 표현 (Matrix Perspective)

직교 투영을 행렬 연산으로 공식화함. 정규 직교 기저 ${u_1, u_2}$를 열벡터로 갖는 행렬을 $U$라고 함.

변환 과정:

$$\begin{aligned} \hat{b} &= (u_1^T b) u_1 + (u_2^T b) u_2 \\ &= u_1 (u_1^T b) + u_2 (u_2^T b) \\ &= (u_1 u_1^T) b + (u_2 u_2^T) b \\ &= (u_1 u_1^T + u_2 u_2^T) b \end{aligned}$$
결과: 행렬 $U$를 사용하면 투영은 $\hat{b} = UU^T b$라는 선형 변환으로 표현됨.

5. 정규 방정식과의 관계 (Relationship with $A^T A$)

행렬 $A$의 열공간(Column Space)으로 투영할 때, $C = A^T A$가 가역 행렬인 경우를 가정함.

일반적인 투영 공식: $\hat{b} = A(A^T A)^{-1} A^T b$
$A$의 열이 정규 직교할 때: $A^T A = I$(단위 행렬)가 됨.
최종 유도:

$$\hat{b} = A(I)^{-1} A^T b = AA^T b$$

이는 앞서 구한 $UU^T b$와 동일한 결과임을 확인할 수 있음.

정리: 직교 투영은 주어진 벡터를 특정 부분공간에서 가장 가까운 벡터로 근사하는 최적의 방법임. 특히 정규 직교 기저를 사용하면 복잡한 역행렬 계산 없이 $AA^T$만으로 투영 벡터를 구할 수 있음

6. 그람-슈미트 직교화 (Gram-Schmidt Orthogonalization)

그람-슈미트 과정은 임의의 선형 독립인 벡터 집합 ${x_1, \dots, x_n}$을 직교하는 벡터 집합 ${v_1, \dots, v_n}$으로 변환하는 알고리즘

핵심 알고리즘 단계

Step 1: 첫 번째 벡터는 그대로 유지함.
- $v_1 = x_1$
Step 2: 두 번째 벡터 $x_2$에서 $v_1$ 방향으로의 투영 성분을 제거하여, $v_1$과 수직인 $v_2$를 구함.
- $v_2 = x_2 - \text{proj}_{W_1} x_2 = x_2 - \frac{x_2 \cdot v_1}{v_1 \cdot v_1} v_1$
Step 3: 세 번째 벡터 $x_3$에서 $v_1$과 $v_2$가 이루는 평면 $W_2$ 위로의 투영 성분을 제거하여, 앞선 모든 벡터와 수직인 $v_3$를 구함.
- $v_3 = x_3 - \text{proj}_{W_2} x_3 = x_3 - \left( \frac{x_3 \cdot v_1}{v_1 \cdot v_1} v_1 + \frac{x_3 \cdot v_2}{v_2 \cdot v_2} v_2 \right)$

이 과정을 반복하면 모든 벡터가 서로 수직인 직교 기저(Orthogonal Basis)를 얻게 됨.

7. 그람-슈미트 과정의 기하학적 이해

그람-슈미트 과정은 기하학적으로 기존 공간에 수직인 새로운 성분만을 남기는 과정.

벡터 $x_3$를 평면 $W_2 = \text{Span}\{v_1, v_2'\}$ 위로 투립시킨 지점이 $\text{proj}_{W_2} x_3$임.
이때 $x_3$에서 투영 벡터 $\text{proj}_{W_2} x_3$를 빼주면, 평면 $W_2$와 완벽하게 수직인 벡터 $v_3$가 생성됨.
이를 통해 ${v_1, v_2, v_3}$는 서로 직교하는 3차원 기저가 됨.

8. QR 분해 (QR Factorization)

QR 분해는 선형 독립인 열을 가진 행렬 $A$를 직교 행렬 $Q$와 상삼각 행렬 $R$의 곱으로 나타내는 것임.

$A = QR$의 구성 요소

행렬 $Q$ ($m \times n$): 행렬 $A$의 열공간(Col A)에 대한 정규 직교 기저(Orthonormal Basis)를 열벡터로 가짐
- 그람-슈미트로 구한 ${v_1, \dots, v_n}$을 각각의 크기로 나누어 정규화한 ${u_1, \dots, u_n}$이 $Q$의 열이 됨
행렬 $R$ ($n \times n$): 상삼각 행렬(Upper Triangular Matrix)이며, 대각 성분은 양수임.
- $A$의 원래 열벡터 $x_k$를 정규 직교 기저 $u_i$들의 선형 결합으로 표현했을 때의 계수들로 구성됨.

9. QR 분해 예시 계산

행렬 $A = \begin{bmatrix} 1 & 0 & 0 \ 1 & 1 & 0 \ 1 & 1 & 1 \ 1 & 1 & 1 \end{bmatrix}$의 QR 분해 과정임.

$Q$ 구하기: $A$의 열벡터들에 그람-슈미트 과정을 적용하고 정규화함.
- $u_1$은 $x_1$을 정규화하여 구함: $u_1 = \begin{bmatrix} 1/2 \\ 1/2 \\ 1/2 \\ 1/2 \end{bmatrix}$
- 같은 방식으로 $u_2, u_3$를 차례로 구하여 행렬 $Q = \begin{bmatrix} u_1 & u_2 & u_3 \end{bmatrix}$를 구성함.
$R$ 구하기: $x_k$와 $u_i$의 내적을 통해 계수를 구함.
- $x_1 = 2u_1 \rightarrow r_{11} = 2$
- 최종적으로 구해진 $R$은 다음과 같음: $R = \begin{bmatrix} 2 & -3/2 & 1 \\ 0 & -3/\sqrt{12} & 2/\sqrt{12} \\ 0 & 0 & 2/\sqrt{6} \end{bmatrix}$

10. 실습

4. 선형대수학

kimyeji2358 — Fri, 3 Apr 2026 13:26:06 +0900

1. Over-determined System

연립방정식에서 방정식의 개수(m)가 미지수의 개수(n)보다 많은 경우

m > n

문제: 데이터가 너무 많아 모든 식을 동시에 만족하는 해 x가 존재하지 않는 경우가 대부분 (Ax=b의 해가 없음)

벡터 공간에서의 해석: 행렬 A의 열벡터들의 선형 결합인 Ax는 항상 A의 열공간(ColA)안에 존재

목표 벡터 b가 이 열 공간(ColA) 밖에 있다면, 어떤 x를 선택해도 Ax = b를 만족시킬 수 없음

2. Least Squares

해가 없을 때, 가장 근사한 해를 찾으려고 노력

1) 최적의 근사 기준 : 오차 제곱합

오차 벡터를 e = b - Ax라고 할 때, 이 오차의 크기를 최소화하는 x를 찾는 것이 목표

오차 제곱합(Sum of Squared Errors) : 각 오차의 제곱을 모두 더한 값
수식 : 최적의 해 $\hat{x}$
- $\hat{x} = \arg \min_{x} \|b - Ax\|$

ex) Life-span 예측

4명의 데이터(몸무게, 키, 흡연 여부)를 통해 수명을 예측하는 모델 Ax=b

- $x = [-0.4, 20, -20]^T$

첫 3명에 대해서 오차는 0이지만, 4번쨰 사람 오차 -12

오차 제곱합의 루트값은 12.0

- $x = [-0.12, 16, -9.5]^T$

모든 사람에게 조금씩 오차가 발생하지만

오차 제곱합의 루트값은 약 9.55

Inner Product(내적): $u \cdot v = u^Tv$
- 두 벡터 사이의 각도 $\theta$
- $u \cdot v = \|u\|\|v\|\cos\theta$
Norm
- 벡터의 길이 $\|v\| [cite_start]= \sqrt{v \cdot v}$
Orhogonal(직교)
- 두 벡터의 내적이 0이면 ($u \cdot v = 0$) 두 벡터는 수직
Unit Vector (단위벡터)
- 길이가 1인 벡터
- $u = \frac{1}{\|v\|}v$로 규화하여 만듦

3. Orthogonal Projection (직교 투영)

원리 : $Ax$는 $Col A$ 평면 위의 점

b와 가장 가까운 평면 위의 점은 b에서 평면에 내린 수선의 발 $\hat{b} = A\hat{x}$

직교 조건: 최적의 지점에서는 오차 벡터 $b - A\hat{x}$가 A의 모든 열벡터 ($a_1, a_2, \dots, a_n$)와 수직이어야 함

$$A^T(b - A\hat{x}) = 0$$

4. Normal Equation (정규 방정식) 유도

1. $A^T(b - A\hat{x}) = 0$

2. $A^T b - A^T A \hat{x} = 0$

3. 정규 방정식: $A^T A \hat{x} = A^T b$

미분을 통한 유도

오차 함수 $f(x) = |b - Ax|^2 = (b - Ax)^T(b - Ax)$를 x에 대해 미분하여 0이 되는 지점을 찾음

$(b - Ax)^T(b - Ax) = b^Tb - x^TA^Tb - b^TAx + x^TA^TAx$
x에 대해 미분하면 : $-2A^Tb + 2A^TAx = 0$
결과적으로 동일한 $A^TA\hat{x} = A^Tb$를 얻음

최종 해 (Inverse Matrix 존재 시)

만약 $A^TA$의 역행렬이 존재한다면, 최적의 해는

$$\hat{x} = (A^T A)^{-1} A^T b$$

5. 정규 방정식의 성질과 주의점

해의 존재성
- $A^TA\hat{x} = A^Tb$는 항상 최소 하나 이상의 해를 가짐
- 수선의 발을 내리지 못하는 경우는 없음
역행렬이 없는 경우
- A의 열벡터들이 선형 종속일 때 발생
- 이 경우 해는 무수히 많아짐
일반적인 경우
- 데이터가 충분히 독립적이라면 $A^TA$는 역행렬이 존재하며 유일한 해를 가짐

4-3. 생성형 AI와 LLM, RAG, AGENT

kimyeji2358 — Thu, 2 Apr 2026 23:52:23 +0900

1. 생성형 AI(Generative AI)

생성형 AI는 데이터의 단순 재현이 아닌, 데이터가 생성되는 패턴과 구조를 학습하여 이전에 존재하지 않았던 새로운 데이터를 생성하는 모델

○ 학습 데이터

입력값 자체가 정답 역할을 하므로 별도의 라벨링이 필요 없는 자기 지도 학습이 가능

이를 통해 인터넷상의 방대한 데이터를 학습할 수 있음

○ 수식 차이

판별 모델: $P(y|x)$ 데이터 x가 주어졌을 때 정답 y를 맞춤
생성 모델 : $P(x)$ 또는 $P(x|\text{조건})$ 데이터 자체의 분포를 학습하거나 조건에 맞는 새로운 x를 생성

○ 생성형 AI 데이터 만드는 과정

1. 학습 단계 (Training)

데이터의 본질을 파악하는 과정

구조와 패턴 파악: 데이터가 어떤 형태일 때 자연스러운지, 요소 간의 상관관계는 어떠한지 학습
멀티모달 데이터 활용: 텍스트, 이미지, 텍스트+이미지 모두 학습 가능
데이터 정제: 수집된 데이터에서 노이즈를 제거하고 필터링하여 고품질의 데이터셋을 구축

2, 생성 단계 (Generation)

학습한 패턴을 기반으로 실제로 데이터를 출력하는 단계

확률적으로 계산하여 만들어 냄

핵심 요소: 잠재 변수

- 데이터에서 직접 관찰 되지는 않지만 데이터를 구성하는 숨겨진 핵심 특징을 의미함

- 복잡한 데이터 분포를 단순화하고 데이터의 구조를 이해하여, 일정한 맥락과 스타일을 갖춘 새로운 데이터를 생성하도록 도움

○ 데이터 생성 방식

1. GAN (Generative Adversarial Networks)

생성기와 판별기가 경쟁하며 학습

생성기는 잠재 변수 z를 통해 까자 데이터를 만들고, 판별기는 이를 실제와 구별하도록 훈련

→ 실제 데이터와 유사한 데이터를 생성함

2. VAE (Variational Autoencoders)

인코더를 통해 데이터를 저차원 잠재 변수 z로 압축하고

디코더가 이를 다시 고차원 데이터로 복원하여 새로운 데이터를 생성

인코더는 잠재변수의 평균과 표준편차를 예측 → 잠재 변수를 정규 분포에서 샘플링하여 출력 → 데이터의 저차원 표현을 학습

3. 확산 모델 (Diffusion Model)

데이터에 단계적으로 노이즈를 추가하는 순방향 확산과

이를 다시 복원하는 역방향 확산 과정을 통해 데이터를 생성

2. LLM (Large Language Model)

LLM은 대량의 텍스트 데이터를 학습하여 인간과 유사한 언어를 생성하는 모델

생성형 AI 중 텍스트 생성에 특화된 모델

○ 동작 원리 : Next Token Prediction

LLM의 본질은 다음에 올 가장 자연스러운 단어를 확률적으로 예측하는 것

ex) "I am a" 입력 시, student(0.6), developer(0.3), teacher(0.1) 중 확률이 가장 높은 단어를 선택하여 문장을 이어 붙임

- LLM 성이 좋은 이유

방대한 데이터 규모
거대한 모델 크기
트랜스포머 구조
전이 학습

○ 프롬프트 전략 : In-context Learning

모델의 파라미터를 수정하지 않고 입력(프롬포트) 내의 문맥 정보를 활용해 성능을 높이는 방식

Zero-shot : 예시 없이 바로 요청
One -shot : 1개의 예시 제공
Few-shot : 여러 개의 예시를 제공하여 패턴을 학습시킴

○ 생성 방식 제어

Temperature : 확률 분포를 얼마나 랜덤하게 사용할지 결정하는 수단
- 낮음 (0~0.3) : 확률이 높은 단어를 선택하여 안정적이고 정확한 결과를 냄
- 높음 (0.7~1.0) : 확률이 낮은 단어도 선택될 기회를 주어 다양하고 창의적인 문장 생성
Top-k : 확률이 높은 상위 k개의 단어만 후보로 사용
Top-p : 상위 단어들의 확률 합이 p가 될 때까지 후보군을 선택하는 방식

3. RAG (Retrieval-Augmented Generation)

RAG는 LLM의 내부 지식 한계를 극복하기 위해 외부 데이터베이스에서 관련 정보를 검색하여

이를 바탕으로 답변을 생성하는 기술

○ Rag의 3단계 구조

1. Retrieval (검색)

사용자의 질문을 벡터로 변환하여 벡터 DB에서 관련 문서를 찾음

2. Augmentation(증강)

검색된 정보를 질문과 함께 LLM에 입력으로 제공

3. Generation (생성)

LLM이 제공된 근거 데이터를 바탕으로 최종 답변을 생성

- 장점

최종 정보 반영
정확도 향상
출처 제공 가능
환각 현상 감소

4. AI Agnet

Ai Agent는 특정 목표를 달성하기 위해 스스로 판단하고 외부 도구를 사용하여 행동하는 시스템

주요 특징

자율성: 사람의 개입 없이 스스로 작업 수행
상태 유지: 이전 대화나 맥락을 기억하며 환경 변화에 맞춰 행동을 바꿈
실행 능력: 텍스트 생성뿐만 아니라 API호출, 파일 수정, 캘린더 등록 등 실제 작업을 수행함

○ 기본 구조

1. Model (Think)

지능의 핵심으로, 상황을 이해하고 추론함

2. Orchestrator (Coordinate)

요청 목적을 해석, 어떤 도구를 어떤 순서로 사용할지 계획을 세움

3. Tools (Act)

외부 인터페이스 (Extensions), 사용자 정의 함수 (Functions), 데이터 저장소 (Data Stores) 등을 통해 실제 행동을 취함

○ 주요 사고 전략

ReAct : 추론과 행동을 번갈아 수행하며 문제 해결
CoT (Chain of Thought) : 복잡한 문제를 해결하기 위해 중간 사고 과정을 단계별로 서술
ToT (Three of Thought) : 여러 아이디어를 병렬로 전개하고 장단점을 비교하여 최적의 경로 선택

5. Multi-Agent

Multi-Agent(Agentic AI)는 여러 개의 전문화된 Agent가 협력하여 하나의 크고 복잡한 목표를 해결하는 시스템

역할 분담
- 각 에이전트가 자재 관리, 생산 계획, 품질 검사 등 특징 전문 영역을 담당
고도의 자율성
- 단일 모델로 해결하기 어려운 복잡한 문제를 에이전트 간의 협업으로 해결
동적 계획 수정
- 상황 변화에 따라 에이전트들이 서로 소통하며 계획을 실시간으로 수정

○ 협업 방식

1. 오케스트레이션 (Orchestration) 방식

중앙 컨트롤러가 전체 흐름을 관리하며 각 에이전트에 작업을 분배하는 방식

2. 코레오그래피 (Choreography) 방식

중앙 통제 없이 에이전트들이 자율적으로 소통하며 협업하는 분산형 구조

구분	AI Agent	Multi-Agent
수행 작업	단일 작업 중심	복잡한 목표 중심
의사 결정	단일 모델의 추론에 의존	여러 전문 에이전트 간의 협의 및 협력
시스템 구조	모델+오케스트레이터+도구	여러 에이전트들의 네트워크 및 통신 체계

5. 최신 기술 동향

지식 증강 및 추론 기술 (Advanced RAG & Reasoning)

1. GraphRAG 그래프 기반 검색 증강 생성

데이터를 낱개로 저장하지 않고 거미줄처럼 서로 연결된 지식의 지도로 만들어 활용하는 기술임

최신성: 문서 전체의 주제나 인물 간의 복잡한 관계를 요약하는 능력
수식적 포인트: 지식 그래프 $G = (E, R)$ 구조를 사용함
- $E$ (Entity, 노드): 사람 회사 도시 같은 핵심 정보 알갱이임
- $R$ (Relation, 간선): 누가 누구의 CEO인지 어느 회사가 어느 도시에 있는지 연결하는 선임
작동 원리: 데이터를 조각내어 보관하는 대신 각 정보가 서로 어떻게 연결되어 있는지 위상적 구조를 학습함
효과: 파편화된 정보들 사이의 맥락을 읽어내어 "A사의 사장이 사는 도시의 특징" 같은 복잡한 질문에도 정확히 답변함

2. Search-Augmented Reasoning 추론형 검색

질문을 받자마자 답하는 것이 아니라 정답을 찾기 위해 스스로 전략을 짜고 검색을 반복하는 과정임

최신성: OpenAI의 o1이나 Google의 최신 모델들에 적용된 방식으로 AI가 스스로 무엇을 더 찾아봐야 할지 판단함
작동 매커니즘:
- Chain of Thought (CoT): 큰 문제를 해결하기 위해 생각을 단계별로 쪼갬
- ReAct 루프: 생각하고 행동하고 관찰하는 과정을 정답이 나올 때까지 반복함
  1. Thought (추론): 지금 상황에서 어떤 정보가 더 필요한지 판단함
  2. Action (검색 실행): 외부 데이터나 지식 베이스에서 실제로 정보를 찾아봄
  3. Observation (확인): 찾아온 결과가 도움이 되는지 확인하고 다음 할 일을 결정함
효과: 한 번의 검색으로 알 수 없는 복잡한 문제도 스스로 논리적 오류를 고쳐가며 정답에 도달함

4-2. Transformer & Attention

kimyeji2358 — Thu, 2 Apr 2026 16:28:19 +0900

1. 시퀀스 모델의 발전과 Transformer의 등장

○ 전통적인 모델의 한계 (RNN, LSTM)

시퀀스 데이터

- 순서가 있는 데이터를 의미

-앞의 단어가 뒤의 단어에 영향을 미치는 텍스트, 음성, 주식 데이터 등이 해당

전통적인 모델(RNN, LSTM): 이전 입력 정보를 순환 구조로 기억하며 처리하는 방식

한계

장기 의존성 문제 (Long-term Edpendency) : 문장이 길어질수록 앞부분의 정보가 뒤로 전달되지 않고 소실되는 현상
학습 속도 및 병렬 처리 : 데이터를 순서대로 처리해야 하므로 GPU를 활용한 병렬 연산이 불가능하여 학습 속도가 매우 느려짐
기울기 소실 및 폭발 : 역전파 과정에서 그래디언트가 너무 작아지거나 커져 학습이 제대로 이루어지지 않음

○ seq2seq 모델의 한계

구조 : 인코더가 입력 시퀀스를 하나의 벡터로 압축하고, 디코더가 이를 통해 출력 시퀀스를 만듦

한계

정보 압축의 병목 현상 : 인코더가 전체 문장을 하나의 고정된 크기(벡터)로 압축히야 하므로 정보 손실이 발생
해결책 : 문장의 특정 부분에 집중하는 Attention 매커니즘 등장

2. Attention 매커니즘의 작동 원리

○ Attention의 기본 개념

디코더가 단어를 생성할 때 인코더의 모든 정보를 균일하게 보는 대신,

필요한 부분만 선택적으로 참고하는 기법

구성요소
- Query(Q) : 현재 찾고자 하는 정보 (디코더의 현재 단어 상태)
- Key (K) : 인코더 각 단어의 특성 (비교 대상)
- Value (V) : 각 단어가 가진 실제 정보 내용

○ Attention 작동 단계

1. 유사도 계산

Query($s_t$)와 모든 Key($h_i$)를 비교하여 얼마나 관련이 있는지 점수를 매김

방법 : 주로 두 벡터의 내적(Dot Product)을 사용

내적 값이 클수록 두 단어의 연관성이 높다는 의미

$$e_t = Q \cdot K^T$$

2. 가중치 계산

계산된 점수들을 확률 값으로 바꿈

방법 : Softmax 함수를 통과시키면 모든 값의 합이 1이 됨.

결과 : 0과 1사이의 값이 나오며, 이를 어텐션 가중치라고 부름

이 과정을 통해 어떤 단어에 더 집중할지 결정되는 어텐션 분포가 형성됨

$$\alpha_t = \text{softmax}(e_t)$$

3. 가중합 계산

각 단어의 실제 정보(Value)에 구한 가중치를 곱해 모두 더함

방법 : 가중치가 높은 단어의 정보는 크게 반영되고, 낮은 단어는 작게 반영됨

결과 : 이렇게 얻은 최종 결과물 → 어텐션 값(Attention Value) or 컨텍스트 벡터(Context Vector)라고 부름

입력 문장의 문맥 정보가 Query에 맞춰 압축된 형태

$$a_t = \sum_{i=1}^{N} \alpha_i^t h_i$$

3. 단어 예측

구해진 어텐션 값을 단어 예측에 반영함

방법 : 어텐션 값 ($a_t$) 과 현재 디코더의 상태($s_t$)를 연결(Concatenate)

예측 : 연결된 벡터를 신경망에 통과시켜 최종적으로 다음에 올 가장 적절한 단어를 출력

3. Self-Attention

정의: 문장 내 단어들끼리에게 Attention을 취하여 단어 간의 연관성을 파악

이점: "The animal... beacause it...' 문장에서 "it"이 'animal'을 가르킨다는 문맥을 컴퓨터가 이해하도록 도움

계산 특징: 시작 값 (Q,K,V)은 동일 문장에서 나오지만, 학습되는 가중치($W^Q, W^K, W^V$)에 의해 최종 값은 달라짐

○ Scaled Dot-Product Attention

Transformer에서 사용하는 Self-Attention 공식

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

- Scaling 연산: $QK^T$를 $\sqrt{d_k}$로 나눔

→ 차원이 커질수로 내적값이 커져 Softmax의 기울기가 소실되는 문제를 방지하기 위함

- 병렬 처리: 여러 단어를 한꺼번에 처리하여 연산 속도(GPU 활용)가 비약적으로 향상됨

Q 왜 $d_k$의 제곱근으로 나누는가? (Scaling)

답: Softmax의 기울기 소실 문제를 방지하기 위함

$d_k$(Key의 차원)가 커질수록 내적 값($QK^T$)의 분산이 커짐.

내적 값이 커지면 Softmax 함수 그래프에서 미분 값의 0에 수렴하는 평평한 영역으로 이동

→ 미분 값이 0이 되면 역전파시 학습이 이루어지지 않음. 따라서 $\sqrt{d_k}$로 나누어 값의 범위를 조절함으로써 안정적인 학습 환경을 제공

Q eq2seq 모델과 비교했을 때 Attention이 해결한 가장 큰 문제점은 무엇인가?

답: 정보의 병목 현상과 병렬 처리의 한계를 해결함

병목 제거: 고정된 크기의 벡터 하나에 모든 정보를 넣지 않고, 필요할 때마다 입력 문장 전체를 다시 들여다 보는 방식

병렬성 확보: RNN의 순차 구조를 벗어나 GPU 연산 효율을 극대화함.

4. Transformer 아키텍처

○ 인코더-디코더 구조

N개 층: 기존 seq2seq와 달리 인코더와 디코더 단위를 N개씩 쌓아 고차원 특징을 학습
Auto-regressive : 디코더는 <sos> 로 시작해 <eos>가 나올 떄까지 순차적으로 예측을 진행

○ 내부 구조적 특징

Multi-Head Attention : Attention을 여러 개(Head)로 나누어 병렬로 수행. 이를 통해 한 문장 안에서도 문법적 관계, 의미적 관계 등 다양한 문맥적 정보를 동시에 포착 가능
Residual Connection (잔차 연결): 각 층의 입력을 출력에 다시 더해주는 방식으로, 정보가 소실되지 않고 깊은 층까지 전달되도록 도움
Layer Normalization (층 정규화) : 각 층의 출력을 일정 범위로 정규화하여 학습 속도를 높이고 안정화

○ Positional Encoding (위치 인코딩)

필요성: Transformer는 데이터를 한꺼번에 입력받으므로 단어의 위치 정보가 없다

방법: 임베딩 벡터에 위치 정보를 담은 함수값을 더함

$$PE_{(pos, 2i)} = \sin(pos/10000^{2i/d_{model}})$$

효과: 동일한 단어라도 문장 내 위치에 따라 모델이 다르게 인식하게 됨

○ Transformer의 강점 및 응용

강점: 장기 의존상 학습이 가능, 병렬 처리를 통해 대규모 데이터 학습에 최적화

응용 분야: GPT, BERT의 뼈대가 되었으며 자동번역, 챗봇, 요약, 코드 생성 등에 사용

- 최신 동향 및 과제

동향: 모델 경량화, 다중 모달(이미지+텍스트) 모델, 설명 가능한 AI(XAI)
과제 : 데이터 향 문제, 개인 정보 보호, 모델 해석력 향상

Q 왜 Transformer는 RNN 없이도 문장의 순서를 이해할 수 있는가?

답: 포지셔널 인코딩(Positional Encoding) 덕분

Transformer는 모든 단어를 한꺼번에 입력받아 병렬 처리하므로 위치 정보가 사라짐

이를 해결하기 위해 각 단어의 임베딩 벡터에 고유한 위치 정보를 가진 함수값을 더함

모델은 단어의 절대적 위치, 단어 간의 상대적인 거리 차이까지 학습 가능. 순차적 처리 없이도 문맥을 파악함

4-1. NLP기초 (Embedding & RNN)

kimyeji2358 — Thu, 2 Apr 2026 14:20:15 +0900

1. 임베딩(Embedding)

컴퓨터는 인간의 언어를 직접 이해할 수 없으며 오직 숫자만 처리 가능

텍스트 데이터를 컴퓨터가 처리할 수 있도록 수치화하는 과정 필요

→ 벡터화(Vectorization)

1-1. One-Hot Encoding

단어 집합의 크기를 차원으로 함

표현하고 싶은 단어의 인덱스에만 1을 부여, 나머지는 모두 0 표시

→ 희소 표현 (Sparse Representation)

문제점

의미 결여 : 단어 간의 유사도를 계산할 수 없음
차원의 저주 : 단어 수가 늘어날수록 베터의 길이와 0의 개수가 무하히 증가하여 계산 효율↓

1-2. 워드 임베딩 & Word2Vec

○ 임베딩 (Embedding)

단어를 고정된 크기의 밀집 벡터(Dense Vector)로 표현하는 방식 → 분산 표현(Distributed Representation)

학습을 통해 단어의 의미를 다차원 공간상의 좌표로 나타냄

장점
- 의미가 비슷한 단어들은 벡터 공간에서 서로 가까운 거리에 위치

○ Word2Vec

저차원에 단어의 의미를 여러 차원에 분산하여 표현하는 기술

두 가지 학습 방식: CBOW, Skip-gram

- CBOW (Continuous Bag of Words)

원리 : 주변에 있는 단어들(맥락)을 통해 중앙에 있는 빈칸(타깃 단어)을 예측하는 신경망 구조
특징 : 여러 단어를 한꺼번에 처리하므로 학습 속도가 빠름
ex) You __ goodbye 타깃: __에 들어갈 단어

- Skip-gram 방식

원리 : 중앙의 단어로부터 주변의 여러 단어를 예측하는 모델
특징 : CBOW보다 학습량 많고 더 어려운 문제를 풂 → 단어의 분산 표현(임베딩) 결과가 더 뛰어날 가능성 높음

2. RNN (Recurrent Neural Network, 순환 신경망)

○ FNN (Forward Neural Network) 의 한계

기존의 순전파 네트워크는 데이터가 한 방향으로만 이동

입력 크기가 고정된 데이터에는 적합

but 이전 단어를 기억해야하는 시퀀스(Sequence) 데이터 처리에는 어려움이 있다

○ RNN의 구조와 특징

RNN은 시계열 또는 순차 데이터를 예측하는 데 효과적인 구조

순환 구조: 이전 시점의 은닉 상태(Hidden State, $h_{t-1}$)를 현재 시점의 입력 ($x_t$)과 함께 참조하여 현재의 값 ($h_t$)을 결정
수식 : $h_t = f(W_h h_{t-1} + W_x x_t + b)$ (활성화 함수 $f$를 거쳐 결과를 내보냄)
종류
- One-to-Many (이미지 캡셔닝)
  - 하나의 입력 데이터를 반복하여 신경망에 입력, 연속된 시퀀스 출력
- Many-to-One (감정 분석)
  - 연속된 단어로 이루어진 문장 시퀀스에 대한 분석
- Many-to-Many (번역, 주식 예측)
  - 시계열 데이터 예측

○ BPTT (Backpropagation Through time)

RNN의 역전파 방법

모든 시점(Sequence)에 대한 동일한 가중치 벡터를 사용
역전파 시, 각 시점의 가중치 기울기를 전부 더해서 업데이트하여, 현재의 오차가 과거의 오차와 연결

○ RNN의 문제점과 발전된 모델(LSTM, GRU)

- RNN의 한계

1. 장기 의존성 (Long-Term Dependency) 문제

시퀀스가 길어질수록 앞쪽의 정보가 뒤쪽까지 충분히 전달되지 않아 기억력이 약해짐

2. 기울기 소실(Vanishing Gradient) 및 폭발

동일한 가중치를 반복해서 곱하기 때문에

가중치가 1보다 작으면 기울기가 0으로 수렴하고 1보다 크면 무한히 커짐

● LSTM (Long Short - Term Memory)

장기 의존성 문제를 해결하기 위해 Cell State를 도입한 모델

3개의 게이트
- Forget Gate: 기억하지 않아도 될 정보를 삭제
- Input Gate: 새로운 입력 중 어떤 정보를 기억할지 결정
- Output Gate: 어떤 정보를 출력으로 내보낼지 결정
이를 통해 장기 기억을 효과적으로 유지

● GRU(Gated Recurrent Unit)

LSTM의 구조를 단순화하면서도 유사한 성능을 내도록 설계된 모델

2개의 게이터
- Update Gate
- Reset Gate
특징 : 파라미터 수가 적어 연산 속도가 빠르며, 비교적 적은 데이터에서도 효율적임

3. 선형대수

kimyeji2358 — Fri, 27 Mar 2026 16:24:30 +0900

1. 함수의 기본 요소

정의역 (Domain, $\mathbb{R}^n$) : 입력 벡터 x가 속한 전체 집합
공역 (Co-domain, $\mathbb{R}^m$) : 출력 벡터 y가 존재할 수 있는 후보지 전체 집합
상 (Image) : 특정 입력 x에 의해 매핑된 결과값 $T(x)$를 의미
치역 (Range) : 정의역의 모든 원소를 변환했을 때 얻어지는 실제 결과값들의 집합
- 치역은 항상 공역의 부분집합

2. 선형 변환 (Linear Transformation)

선형변환은 벡터를 다른 벡터로 옮길 떄, 공간의 격자모양과 원점을 유지하는 변환

- 선형성의 조건

$$T(u + v) = T(u) + T(v)$$

1. 더하기를 먼저 하나 변환 후 더하나 같아야 함.

$$T(cu) = cT(u)$$

2. 길이를 늘리고 변환하나 변환 후 늘리나 같아야 함.

ex) $T(x) = 3x$

$x_1=1, x_2=2$일 때, 선형결합 $4x_1 + 5x_2 = 14$

방법 1: $T(14) = 3 \times 14 = 42$

방법 2: $4T(1) + 5T(2) = 4(3) + 5(6) = 12 + 30 = 42$

→ 두 결과가 같으므로 이 변환은 선형

- 표준 행렬 (Standard Matrix)

모든 선형변환은 행렬 A와 x의 곱(Ax)으로 표현 가능

행렬 A의 각 열은 단위행렬의 기저 벡터 $e_j$가 변환된 결과값 $T(e_j)$과 같다

ex) $T: \mathbb{R}^2 \rightarrow \mathbb{R}^3$

$T(\begin{bmatrix} 1 \\ 0 \end{bmatrix}) = \begin{bmatrix} 2 \\ -1 \\ 1 \end{bmatrix}$, $T(\begin{bmatrix} 0 \\ 1 \end{bmatrix}) = \begin{bmatrix} 0 \\ 1 \\ 2 \end{bmatrix}$ 이라면,

이때 임의의 벡터 $x = \begin{bmatrix} x_1 \ x_2 \end{bmatrix}$에 대한 표준 행렬(Standard Matrix) $A$를 구하는 과정

$T(x) = x_1 T(e_1) + x_2 T(e_2) = x_1 \begin{bmatrix} 2 \\ -1 \\ 1 \end{bmatrix} + x_2 \begin{bmatrix} 0 \\ 1 \\ 2 \end{bmatrix} = \begin{bmatrix} 2 & 0 \\ -1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$

→ $A = \begin{bmatrix} 2 & 0 \\ -1 & 1 \\ 1 & 2 \end{bmatrix}$

3. 신경망에서의 응용

- 선형 레이어(Linear Layer)

인공신경망의 Fully-connected layer는 선형변환

시각적으로는 직사각형 모눈종이를 평행사변형 형태의 모눈종이로 비틀어 공간을 변형시키는 역할

- Affine Layer

신경망에서 입력 데이터에 선형 변환을 수행한 후 편향을 더해주는 층

일반적인 신경망 레이어에는 $y = Ax + b$처럼 Bias($b$, 절편)가 포함됨

$y = 3x + 2$처럼 Bias가 있으면 원점을 지나지 않으므로 선형변환이 아닙

딥러닝에서는 이를 Affine Layer라고 부르며, 입력을 한 차원 늘려 선형변환처럼 처리하기도 합

선형 변환은 격자가 평행사변형으로 변하는 것

어파인 변환은 선형 변환에 평행이동이 추가된 것

구분	선형변환	어파인 변환
기본 수식	$y = Ax$	$y = Ax + b$
원점 통과	반드시 통과	통과하지 않음(Bias 존재)
공간의 변화	회전, 크기 조절, 전단	선형변환 + 평행 이동
딥러닝 처리	Linear Layer	Affine Layer(차원 확장으로 처리)

4. 전사함수 (Onto)

- 정의

공역의 모든 원소가 최소한 하나 이상의 정의역 원소와 연결될 때

→ 공역과 치역이 같은 상태

- 조건

행렬의 열벡터들이 공역 $\mathbb{R}^m$ 전체를 Span 해야 함.

- 차원 관계

주로 정의역의 차원이 공역보다 크거나 같을 때 ($n \ge m$) 발생 가능성이 높다

- 딥러닝 응용

GAN (생성적 적대 신경망)
- 낮은 차원의 잠재 벡터를 다시 원래 이미지 사이즈로 복원하는 Decoding 과정에서 사용
Manifold
- 실제 데이터가 존재할 법한 특정 서브(Sub) 공간을 의미하며, 생성 모델이 이 공간 전체를 잘 채우느냐가 전사 개념과 연결됨

(생성 모델이 공간을 잘 채우는 것과 전사 개념이 어떻게 직결되는지 아직 잘 이해가 안 감)

5. 일대일 함수 (One-to-One)

- 정의

공역의 각 원소가 중복 없이 정의역의 원소와 연결될 때

- 조건

행렬의 열벡터들이 서로 선형 독립(Linearly Independent) 이어야 함.

- 차원 관계

정의역의 차원이 공역보다 크면 (n> m), 반드시 중복이 생기므로 일대일 함수가 될 수 없다.

- 딥러닝 응용

의도적 정보 삭제: 신경망의 Fully-connected layer를 거치며 차원을 줄이는 $\mathbb{R}^3 \rightarrow \mathbb{R}^2$은 불필요한 차이점을 없애고, 유의미한 특징만 추출하기 위함이다
중복의 발생: 여러 데이터를 넣었을 때 동일한 특징값으로 모이는 것은 일대일 함수가 아님을 뜻하며, 이는 효율적인 데이터 예측을 위한 압축 과정이다.

ex) $T(x) = \begin{bmatrix} 2 & 0 \\ -1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$

- 일대일 함수인가

열벡터 $\begin{bmatrix} 2 \ -1 \ 1 \end{bmatrix}$과 $\begin{bmatrix} 0 \ 1 \ 2 \end{bmatrix}$는 서로 배수 관계가 아니므로 선형 독립

→ 일대일 함수

- 전사함수 인가

2개의 벡터로는 3차원 공간($\mathbb{R}^3$) 전체를 채울(Span) 수 없다

→ 전사함수 아

3-3. CNN

kimyeji2358 — Fri, 27 Mar 2026 15:16:37 +0900

1. 모델 발전 흐름

1) MLP(다층 퍼셉트론)의 한계

초기에는 이미지를 1차원 배열로 펼펴서(Flatten) 입력하는 MLP 방식을 사용했으나 문제가 발생함

문제 1) 파라미터 폭발

Fully-connected 완전 연결

해상도↑ 파라미터 수↑

224×224 해상도의 RGB(3채널) 이미지를 1차원으로 펼치면(Flatten) 150,528 차원이 됨

이를 1,000개의 뉴런과 완전연결(Fully-Connected)하면 약 1억 5천만 개의 가중치가 생성됨

→ 계산량을 폭발 적으로 늘림

→ 학습 속도를 저하시킴

→ 심각한 과적합 유발

문제 2) 공간 정보 손실

2D 이미지를 1차원으로 펼치는 순간 픽셀 간의 상하좌우 근접성(지역성, 위치 관계)이 완전히 파괴

flatten → 이웃한 픽셀 관계 사라짐 → 1차원 벡터로 변환

=> 이미지의 핵심인 지역성(Locality), 패턴 반복성, 위치 관계가 완전히 무시됨

2) CNN의 등장

MLP의 공간 정보 파괴와 파라미터 폭발을 해결하기 위해,

인간 시각 인식의 수용장(Receptive Field) 개념을 적용한 모델이 필요해짐

→ 단순 패턴에서 시작해 물체 단위로 계층적 추상화를 거친다는 점에서 아이디어를 얻어 등장

수용장(Receptive Field)
- 하나의 뉴런이 전체 이미지를 보지 않고, 3×3 같은 작은 일부 영역만 보도록 설계
- 파라미터 수를 획기적으로 줄임
- 공간 구조를 유지
층이 깊어질수록 수용장이 겹치며 넓어짐
- 낮은 층에서는 선/경계 같은 단순 패턴 학습
- 높은 층에서는 물체 단위의 복잡한 개념을 학습
네오 코그니트론 (CNN의 원형)
- 초기 CNN의 원형
- 시각 계층 구조를 인공적으로 구현
- 구성
  - 특징 추출: S-cell (현대의 Convolution)
  - 위치 변화에 강건하게 만드는 C-cell(현대의 Pooling)
- 당시에는 데이터와 연산 자원, 학습 방법이 부족해 성능을 내지 못함

3) CNN의 한계

성능을 높이기 위해 망을 깊게 쌓으면서 새로운 문제 발생

Degradation Problem
- 층을 일정 수준 이상 추가하면 오히려 성능이 저하되는 현상
Gradient Vanishing / Exploding
- 역전파 과정에서 기울기가 0으로 사라지거나 비정상적으로 커져 깊은 층의 학습이 붕괴되는 현
  - 기울기↓ → 앞쪽 레이어 학습 X
  - 기울기↓ → 학습이 불안
연산량 증가와 비효율성
- 층과 채널이 늘어남에 따라 연산이 무거워져 모바일이나 실시간 환경 적용이 어려워짐

4) ResNet의 등장

깊은 네트워크를 안정적으로 학습할 수 없는 기존 CNN의 치명적 한계를 해결하여 현대 CNN의 백본(Backbone)이 됨.

○ Residual Learning(전자 학습) & Skip connection

전체 결과를 직접 학습하는 대신, 입력과 출력의 차이인 잔차 ($F(x)$)만 학습하도록 구조를 변경

→ $H(x) = x + F(x)$

입력값 x를 층을 건너뛰어 그대로 더해주는 Skip Connection을 통해,

정보와 기울기가 입력층까지 소실 없이 전달되게 만듦.

+ Bottleneck 구조

깊은 층의 연산량을 줄이기 위해

1×1 Conv(채널 축소) → 3×3 Conv(특징 추출) → 1×1 Conv(채널 복원)

로 구성된 병목 구조 도입

5) EfficientNet의 등장

단순히 층을 깊게 쌓는 것을 넘어, "모델을더 크게 만들 때 무엇을 어떻게 키우는 것이 효율적인가" 에 대한 구조적 해답을 제시

→ 깊이, 너비, 해상도를 균형 있게 확장하여 효율을 극대화한 모델

EfficientNet 구조

Convolution → MBConv 블록 반혹 → Feature Map 생성

○ Compounding Scaling

기본 모델, 너비 높임, 깊이 키움, 해상도 키움, 셋 다 조절

모델 성능을 결정하는 세 가지 요소인

너비(채널 수) : 커질수록 미세한 정보 포착

깊이(레이어 수) : 더 복잡한 패턴 학습 가능

해상(이미지 크기) : 상세한 정보 유지 가능

를 하나만 늘리지 않고, 세 요소를 수학적으로 계산된 일정한 비율로 균형 있게 동시에 확장

→ 적은 파라미터로 SOTA(최고 성능) 달성

○ MBConv 블록

ResNet의 Skip Connection을 계상하되

1) Expansion

2) Depthwise Conv : RGB 채널별로 따로 합성곱을 수행해 연산량 대폭 감소

3) SE Block : 어떤 채널이 중요한지 골라내는 Attention

4) 1×1 Projection

5) Skip Connection

세부 파이프라인을 구축해 효율성을 극대화

2. CNN 구조

CNN은 다차원 데이터의 형태를 유지한 채 국소적 패턴을 계층적으로 추출하는 수학적 파이프라

1) 특징 추출 단계 ( Feature Extracion)

1. 입력된 이미지에 Convolution(합성곱) 연산을 수행

설정된 커널이 이미지 전체를 슬라이딩하여 픽셀값과 가중치를 곱하고 더하는 MAC 연산을 통해 2D 형태의 Feature Map 생성

convolution 연산

2. Pooling 연산 수행

생성된 Feature Map 내에서 최대값이나 평균값만을 추출하여 해상도의 크기를 줄임

→ 위치 변화에 강건해지고 파라미터가 감소함

max pooling vs average pooling

3. 1,2 연산을 반복 수행

하위 층: 선, 모서리와 같은 단순한 픽셀 수준의 패턴 포착

상위 층: 수용장이 겹치며 넓어져 객체의 전체적인 구조와 같은 추상적인 고차원 특징 학습

2) 분류 단계 (Classification)

1. 공간 구조 정보가 담긴 최종 Feature Map을 1차원 벡터로 변환

2. 완전연결층 (FC Layer)에 통과시킴

3. Softmax 활성화 함수 적용

→ 해당 이미지가 특정 클래스에 속할 최종 확률값을 도출

softmax 함수 : 최종 확률 도출(0~1)

3) Translation Equivariance & Spatial Inductive Bias

동일한 필터 가중치를 이미지 전체 영역에 공유하며 연산

→ 특징 패턴이 위치가 바뀌어도(Translation Equivariance) 동일하게 그 특징을 추출할 수 있음

=> "가까운 픽셀끼리 의미가 깊다"는 강한 공간적 전제(Spatial Inductive Bias)를 모델 구조 자체에 성공적으로 반영

+ Translation Equivariance vs Translation Invariance

Equivariance vs Invariance :

Translation Equivariance

- 입력 데이터가 변환되면, 출력 데이터도 똑같은 방식으로 변환되는 성질

작은 고양이 이미지를 convolution 연산하면 작은 윤곽선(특징맴)이 나옴

만약 입력 이미지를 크게 키우면(Scaling), 출력되는 특징맵도 똑같이 크게 키워진 형태로 나타남

- 특징의 공간적 위치 변화를 그대로 추적

Translation Invariance

- 입력 데이터가 변환되어도, 최종 출력 결과는 전혀 변하지 않고 동일하게 유지되는 성질

고양이 이미지가 크든 작든 상관없이 cnn 모델을 통과한 최종 분류 결과는 형태가 변하지 않은 똑같은 고양이

- 객체의 위치 변화에 영향을 받지 않고 결과를 도출

3. Convolution 하이퍼파라미터

convolution layer의 구조를 결정하는 핵심 하이퍼파라미터

○ Kernel Size (커널 크기)

3×3 kernel

의미
- 연산을 위해 이미지 위를 슬라이딩하는 가중치 필터의 2D 공간 차원 ex) 3×3, 5×5
- 한 번에 포착하는 정보의 영역(수용장)의 크기를 결정함

-값 변화
- 값이 커지면 넓은 영역을 한 번에 파악하지만 연산량이 기하급수적으로 폭발함
- 값이 작아지면 매우 세밀한 공간 특징을 추출

장단점 / 권장
- 큰 커널(5×5) 한 번보다 작은 커널(3×3)을 두 번 연속 적용하는 것
  - 수용장은 유사하게 유지
  - 파라미터 수는 더 적음 (5×5 = 25개 , (3×3)×2 = 18개)
  - 비선형성(ReLU)을 추가로 적용할 수 있음
  - → 모델의 표현력과 효율성 측면에서 유리함

○ Stride

- 의미

커널이 입력 데이터 위를 이동할 때 한 번에 건너뛰는 픽셀의 간격

- 값 변화

값이 커지면 출력 Feature Map의 가로세로 차원이 작아짐 → 다운샘플링 효과 발생
값이 작으면 데이터의 원래 크기 정보가 촘촘하게 유지
장점
- 값을 키우면 후속 레이어의 계산량이 크게 줄어듦
단점
- 세밀한 공간적 디테일이 영구적으로 손실될 수 있음
주로 초기에는 1로 유지하다가 해상도를 줄여야 하는 시점에만 2이상의 값을 적용

○ Padding

의미
- 이미지의 가장자리를 어떻게 처리할 지 결정하는 것
- Zero-Padding
  - convolution 연산에 의한 출력 데이터 크기 축소를 방지하기 위해 입력 이미지의 가장자리 둘레를 0 등의 임의의 값으로 덧붙여 채우는 기법
    zero-padding
값 변화
- 패딩을 적용하지 않으면(Valid Padding) 층을 통과할 때마다 크기가 지속적으로 감소
- 패딩을 적용하면 입력과 출력의 차원을 동일하게 맞추는 것 → Same Padding
장점
- 패딩을 적용하면 깊은 층에서도 공간 해상도 유지
- 연산 횟수가 적어 소외되기 쉬운 이미지 최외곽 가장자리의 경계 픽셀 정보도 학습에 온전히 포함시킬 수 있음

○ Filter / Channels

의미
- 단일 convolution 레이어 내에서 서로 다른 가중치 배열을 가진 커널을 몇개 사용할 것인지 의미
- 이 개수는 생설될 Feature Map의 총 깊이(채널 수)가 됨
값 변화
- 필터 수가 커질수록
  - 네트워크는 대각선, 수평선, 특정 색상 등 더욱 다양하고 구체적인 특징을 병렬로 동시에 출력
장점
- 특징을 많이 뽑을수록 모델의 정보 표현력이 높아져 복잡한 문제 해결에 유리
단점
- 특징을 많이 뽑을수록 가중치 파라미터 개수와 연산 메모리가 폭발적으로 증가하여 병목 발생

3-2. 딥러닝 학습의 원리

kimyeji2358 — Fri, 27 Mar 2026 01:39:42 +0900

1. 신경망 학습의 핵심

처음부터 정답을 아는 것이 아니라

입력에 대한 예측 출력과 실제 정답과의 차이를 보고

내부 값(가중치)을 줄이는 방향으로 조금씩 수정하는 과정

핵심 정보: 파라미터를 어느 방향으로 얼마나 수정해야 하는가를 알려주는 개념 → 기울기

2. 수학 기초 (학습의 방향키)

1) 미분 (Derivative)

어떤 변수를 조금 바꾸었을 때, 함수값이 얼마나 변하는지를 나타내는 값(변화율)

ex) $y=x^2$일 때 미분은 $dy/dx=2x$

- 역할

값을 증가 또는 감소시켜야 할지 방향 결정
변화에 대한 민감도를 측정하여 경사하강법의 핵심 입력값이 됨

2) 편미분 (Partial Derivative)

신경망에는 여러 가중치가 있으므로

다른 변수는 고정하고 단 하나의 변수만 변화시킬 때의 변화율을 구하여

각 가중치의 개별 영향력을 측정

ex) $f(x,y) = x^2 + y^2$에서

$x$에 대한 편미분

→ $\partial f/\partial x = 2x$

$y$에 대한 편미분

→ $\partial f/\partial y = 2y$

3) 그래디언트 (Gradient, $\nabla$)

각 파라미터(가중치)에 대한 편미분 값을 한데 모아 만든 벡터

- 의미

손실이 가장 빠르게 증가하는 방향과 증가율을 나타냄
학습은 그래디언트의 반대 방향( $-\nabla L$)으로 이동

3. 손실함수 (Loss Function)

- 손실함수의 역할

예측값과 정답의 차이를 하나의 수치로 표현하여,

모델이 무엇을 줄여야 하는지 방향을 제시함

- 문제 유형에 따른 손실함수 선택

1) 평균제곱오차 (MSE)

주로 회귀(연속값 예측) 문제에 사용

$$MSE = \frac{1}{n}\sum(y-\hat{y})^2$$

y : 실제값

$\hat{y}$: 예측값

n: 데이터 개수

- 제곱하는 이유

오차를 제곱하므로 양/음 오차가 상쇄되지 않음
오차가 클수록 큰 패널티를 부여

MSE가 0에 가까울수록 추측한 값이 원본에 가까움 → 정확도 높음
예측값과 실제값 차이의 면적의 평균과 같다

2) 교차엔트로피 (Cross-Entropy)

주로 분류(확률 예측) 문제에서 정답에 대한 확신도를 평가할 때 사용

정답 클래스에 할당한 확률이 높을수록 손실이 작아지도록 정의된 함수

$$L = -\sum y \cdot \log(\hat{y})$$

- 특징

정답 클래스에 대해 예측한 확률에 로그를 취함

예측 확률이 1에 가까우면 손실이 0에 수렴
예측 확률이 0에 가까우면 손실이 커짐

연속값을 다루는 회귀 문제 → MSE

확률을 다루는 분류 문제 → 교차엔트로피

손실함수를 통해 모델이 무엇을 줄여야 할지를 수치화했다면

어떻게 줄여나갈지(실행 방법)가 필요

손실 지형에서 낮은 곳을 내려가는 알고리즘 → 경사하강법

4. 경사하강법과 학습룰 (어떻게 줄일 것인가)

○ 경사하강법 (Gradient Descent)

손실함수의 값을 줄이기 위해

현재 기울기의 반대 방향으로 모델의 파라미터를 조금씩 이동시켜 최소점을 찾는 최적화 방법

- 비유

손실을 지형으로 보았을 때, 가장 낮은 지점(최소값)을 향해 경사를 따라 내려가는 것과 같음

- 수식

현재 가중치 - (기울기 × 학습률)

$$\theta = \theta - \eta \nabla J(\theta)$$

$\theta$ : 파라미터(가중치)

$\eta$ : 학습률

$\nabla J(\theta)$ : 손실함수의 기울기

○ 학습률 (Learning Rate, $\eta$)

한 번 업데이트할 떄 이동하는 보폭의 크기

왼: 학습률이 클 때 / 오: 학습률이 작을

학습률이 너무 클 때
- 최적점을 지나침
- 불안정한 수렴: 지그재그로 이동
- 손실이 폭증하며 발산(불안정)함

학습률이 작을 때
- 수렴 속도가 매우 느려짐
- 기울기가 작은 평평한 영역에서 진전 없이 정체될 수 있음
- 비효율: 만흔 에폭 필요, 자원 소모 증가

경사하강법으로 가중치를 업데이트하려면

신경망 내의 모든 가중치가 오차에 미친 기울기를 각각 알아야함

신경이 깊어질수록 이를 앞에서부터 일일이 계산하는 것은 불가능

→ 출력층의 오차를 거꾸로 전달하며 한 번에 기울기를 구하는 역전파 필요

5. 역전파 (Backpropagation)

출력층에서 발생한 오차를 앞쪽 은닉층으로 거꾸로 전달하며

신경망 전체의 모든 가중치에 대한 기울기를 효율적으로 계산

+ 연쇄법칙 이용

- 입력 - 기울기 계산까지의 전체 과정

입력 → 순전파 → 손실 계산 → 역전파

- 역전파 단계

1) 순전파(Foward)

입력 → 은닉 → 출력 으로 진행
예측값 $\hat{y}$ 계산
각 층의 중간 출력값과 z값(가중합)을 메모리에 저장해 역전파에 활용함

2) 손실 계산

정답 y와 예측값 $\hat{y}$를 비교하여 손실 L을 계산
수식: $L=L(y,\hat{y})$
학습 목표 : 손실 L 최소화

3) 출력층 오차

(역전파 출발점) 출력층의 오차 ($\delta_{out}$)를 계산
수식 (예시): $\delta_{out}=\partial L/\partial z_{out}$

4) 오차 전달

연쇄법칙 기반
앞서 구한 출력층의 오차를 이전 층인 은닉층 방향으로 거꾸로 전달

5) 편미분 계산

거꾸로 전달받은 오차와 1단계에서 저장해둔 입력값(중간값)을 곱함
각 파라미터가 전체 손실에 미친 영향(편미분)을 구함
계산 대상 (수식): $\partial L/\partial w$, $\partial L/\partial b$

6) 경사하강법 갱신

5단계에서 구한 기울기의 반대 방향으로 파라미터(가중치, 편향)을 업데이트
한 번에 이동할 보폭(학습률)을 곱함
가중치 갱신: $w := w - \eta \cdot \partial L/\partial w$
향 갱신: $b := b - \eta \cdot \partial L/\partial b$

6. 학습 방법 (데이터 업데이트 단위)

○ Batch GD(경사하강법)

에폭당 1회
전체 데이터를 모두 계산한 뒤 파라미터 업데이트
이동 방향은 안정적
계산이 무겁고 속도가 느림

○ SGD(확률적 경사하강법)

샘플 1개마다 파라미터 갱신
빠른 갱신으로 초기 하강이 빠름
샘플 1개에만 의존하므로 전체 데이터의 방향과 맞지 않아 노이즈가 크고 심하게 진동

○ Mini-batch (미니배치)

전체 데이터를 32, 64 등의 작음 묶음으로 나누어 업데이트하는 방식
속도와 안정성의 균형을 잡을 수 있음
GPU의 병렬 처리 구조를 활용해 연산 효율 극대화
학습 루프: 배치분할 → 순전파 → 손실 계산 → 역전파 → 갱신 → 다음 배치

7. 경사하강법의 한계

○ 극소점 (Local Minima)

주변 점들과 비교했을 때는 손실이 가장 작지만, 전체 지형에서 가장 낮은 전역 최소값은 아님

▷ 지역 골짜기에 갇혀 학습이 멈추는 현상

극소점 : 극소적으로만 최솟값
전역 최솟값: 전체 영역 중 최솟값

○ 평평한 영역 (Flat Region)

손실 표면의 기울기가 거의 0에 가까워

극소점이 아닌데도 업데이트 크기가 미세해져 학습이 정체되는 넓은 구간

○ 경사 방향 오류

길고 좁은 골짜기 지형에서 전역적인 최적 방향을 찾지 못하고 국소 기울기만 따라가다가

좌우 벽을 향해 불필요하게 지그재그로 진동하는 현상

8. 최적화 알고리즘

○ 모멘텀(Momentum)

이전 이동 방향의 관성을 누적하여 현재 기울기에 더하는 방식

→ 현재 기울기 + 과거 이동 흐름

지그재그 진동을 상쇄하여 완화함
일관되게 내려가는 방향으로 속도를 가속하여 평평한 영역을 통과함

○ AdaGrad (적응형 학습률)

파라미터 별로 과거의 기울기 제곱합을 누적하여 학습률을 자동 조절함

크게 변한 파라미터는 보폭을 줄임
드물게 변한 파라미터는 보폭을 키움

- 단점

시간이 지날수록 누적값이 커져 학습룰이 0 으로 수렴함
- 보완: RMSProp 처럼 이동평균으로 최근 기울기 중심 반영

○ RMSProp

AdaGrad의 단점을 보완해 기울기 제곱의 이동평균을 사용함

오래된 과거 정보는 잊게 만들어, 학습 후반부에도 적절한 학습률을 유지

- 효과

진동 완화
안정적 수렴
평평한 영역에서도 보폭 유지 학습 지속

○ Adam (Adaptive Moment Estimation)

모멘텀(방향 안정성, 1차 모멘트) + RMSProp(적응적 보포 크기, 2차 모멘트)

빠른 수렴과 진동 억제에 유리
파라미터별 적응적 학습률로 안정적 업데이트
초기 설정에 비교적 강건, 다양한 문제에서 무난

9. 과적합과 데이터 분할

○ 과적합 (Overfitting)

모델이 훈련 데이터의 잡음과 우연한 패턴까지 암기해버려

훈련 손실은 낮지만

처음 보는 새로운 데이터에 대한 성능은 오히려 떨어지는 현상

- 주요 원인

모델 과복잡
데이터 부족
과도한 학습
정규화 부재

→ 훈련에만 최적화된 상태, 일반화를 위해 원인(복잡도, 데이터, 학습시간, 정규화)을 관리해야함

○ 데이터 분할 원칙

이를 방지하고 평가하기 위해 데이터를 세 가지로 나눔

1) Train (훈련셋)

모델의 가중치와 파라미터를 학습하는데 직접 사용

2) Validation (검증셋)

목적: 학습 중 모델 선택, 튜닝
- 학습 과정 중 모델의 과적합 여부를 모니터링함
- 최적의 하이퍼파라미터나 조기 종료 시점을 선택하는 데 사용됨

3) Test (테스트셋)

목적: 최종 일반화 성능 측정
- 모든 구조와 튜닝이 확정된 후, 모델의 최종 일반화 성능을 산출하기 위해 단 1회만 사용됨
의사결정에 사용 금지

10. 과적합 방지 기술

○ 드롭아웃 (Dropout)

학습 과정 중 지정된 확률(p, 보통 0.1~0.5)로 일부 뉴런의 연결을 무작위로 비활성화함

특정 뉴런 조합에만 과도하게 의존하는 공적응 현상 방지
여러 서브 네트워크의 앙상블 효과를 내어 일반화 성능을 높임

○ 배치정규화 (BatchNorm)

층을 지나는 입력 데이터의 분포를 각 미니 배치의 평균과 분산을 이용해 0~1 수준으로 정규화함

내부 공변량 변화를 완화해 기울기의 폭주, 소실을 감소시킴
더 큰 학습률을 안전하게 사용 가능하게 하여 수렴을 가속함

○하이퍼파라미터

모델 연산이 아닌 사람이 직접 설정하는 변수들

이를 조절하여 과적합/과소적합의 균형을 맞춤

- 학습률

너무 크면 불안정
너무 작으면 느림

- 배치 크기

32/64/128 등 자원 한도 내에서 설정

- 에폭 수

- 정규화 강도

과적합 시 중대
과소적합 시 완화

- 드롭아웃 비율

0.1~0.5 범위 탐색
과적합이 심할수록 높임
성능 정체 시 낮춤

11. 모델 평가 지표

○ 정확도 (Accuracy)의 함정

데이터 불균형(예: 정상 95%, 이상 5%) 상태에서는 무조건 정상이라고만 찍어도 정확도가 95%가 나오는 착시 발생

→ 이를 막기 위해 여러 지표 확인

- Precision(정밀도)

$$\frac{TP}{TP+FP}$$

양성이라고 예측한 것 중 진짜 양성 비율

▷ 거짓 양성(FP) 비용이 클 때 중요

- Recall(재현율)

$$\frac{TP}{TP+FN}$$

실제 양성 중 올바르게 양성으로 찾아낸 비율

▷ FN 비용이 클 때 중요, ex) 암 진단

- F1-score

$$2 \times \frac{Precision \times Recall}{Precision + Recall}$$

정밀도와 재현율의 조화평균

두 지표의 균형을 강제하여 한쪽으로만 치우치는 쪽에 패널티를 부여하는 종합 평가 지표

- ROC-AUC vs PR-AUC

	ROC-AUC	PR-AUC
핵심	임계값 전반의 분리 능력 평가	양성(회귀) 탐지 품질에 집중
불균형 민감도	상대적으로 낮음	매우 높음
유리한 상황	양, 음 클래스 균형, 오류 비용이 유사	양성 최소, 양성 누락 비용이 큼

균형 잡힌 데이터에서의 전반적 분류 능력 → ROC-AUC로 평가

양성 클래스가 극도로 회귀한 불균형 데이터 → PR-AUC

전체 흐름 요약

1. 목표 설정 : 손실함수가 틀린 정도를 정의

2. 방법 도출: 미니배치와 역전파를 통해 효율적으로 기울기 방향 계산

3. 최적화: Adam 등의 옵티마이저를 통해 진동 없이 안정적으로 최적점을 찾아감

4. 일반화 : 드롭아웃과 배치정규화로 정답을 외우는 과적합을 방지하여 현실 데이터 적응력을 높임

5. 평가: Accuracy의 함정을 피해, 목적에 맞는 혼동행렬 기반 세부 지표로 성능을 검증

3-1 딥러닝 기초: 인공신경망과 퍼셉트론

kimyeji2358 — Thu, 26 Mar 2026 22:32:25 +0900

1. 딥러닝 등장 배경

- Rule - based AI → 머신러닝

Rule - based AI (규칙기반)

- 사람이 직접 명시적인 규칙을 작성

- 복잡한 문제나 새로운 상황에 대응하기 어렵다

머신러닝 (학습기반)

- 모델이 직접 데이터로부터 규칙과 패턴을 자동으로 학습

- 초기 머신러닝 모델

선형 회귀
- 연속값 예측 → 선형(직선) 관계만 파악 가능
로지스틱 회귀
- 이진 분류 → 복잡한 데이터 분류에 한계
퍼셉트론
- 이진 분류(초기 신경망) → 완벽히 직선으로 나뉠 때만 정답 도출

=> 공통점: 데이터로 스스로 학습하지만, 구조가 단순하고 결정경계가 선형이다

※선형 결정경계

→ 입력 공간에서 두 클래스를 나누는 경계가 선형 형태로 나타나는 경우

결정경계 : 데이터를 나누는 기준선
선형 : 기준선이 공간상에서 단 하나의 직선임

2. 퍼셉트론

인간의 뇌신경세포(뉴런)가 신호를 처리하는 방식을 수학적으로 단순화한 모델

- 생물학적 뉴런 vs 인공 뉴런(퍼셉트론)의 대응

수상돌기(입력 수신) → 입력(x)
체세포 (신호 통합) → 가중합( $z = w^T x + b$ )
축삭 (신호 출력) → 활성화 함수 (f) 를 거친 출력 (a)

- 퍼셉트론 동작 원리

입력 → 가중합 → 활성화 → 출력

$$z = w^T x + b$$

가중합: 입력 벡터 x에 가중치 w를 곱하고 편향 b를 더함

$$a = f(z)$$

활성화: 계산된 가중합을 활성화 함수에 통과시켜 최종 출력을 만듦.

=> 퍼셉트론은 먼저 데이터를 나누는 기준선 하나를 만들고, 활성화 함수를 통해 데이터 구분

- 퍼셉트론의 한계

퍼셉트론이 2차원 공간에서 데이터를 나누는 기준선(결정경계)은 단 하나의 직선

직선하나로 나눌 수 있는 데이터에는 강하지만, 복잡한 비선형 문제는 약함.

XOR 문제: 두 클래스가 대각선으로 엇갈려 있어 직선 하나로는 분리 불가능
동심원 데이터: 데이터가 원형으로 둘러싸인 형태, 직선 경계로는 분리 불가능

3. 한계 극복: 다층 퍼셉트론(MLP) 등장

단층 퍼셉트론의 한계를 극복하기 위해 입력층과 출력층 사이에 은닉층 추가

- 은닉층

정의 : 입력과 출력 사이에서 특징을 변환 , 추출 하는 중간 층
역할 : 판단을 한 번에 끝내지 않고, 입력을 여러 부분 판단으로 분해하여 다음 층에서 조합할 수 있도록 유용한 표현 공간으로 변환함
은닉층이 깊어지고 뉴런 수가 늘수록 정교한 표현 학습 가능

- 복잡한 결정경계 형성

1) 각 은닉 뉴런은 서로 다른 직선 기준(하프스페이스)을 만듦.

2) 출력층이 이 여러 개의 직선 조각들을 조합(선형 결합)

3) 결과적으로 곡선처럼 보이는 복잡한 다각형 영역(결정경계) 형성

→ 비선형 문제 해결 가능

4. 비선형 활성화 함수

- 왜 선형 모델만 쌓으면 안 될까?

선형 변환을 여러 번 합성하는 것은 결국 또 다른 하나의 선형 변환으로 치환됨.

$$y = W_3(W_2(W_1x)) \Rightarrow y = Wx$$

비선형 활성화 함수 없이 층만 쌓아 봤자 결정경계는 여정히 직선/초평면 → 표현력 증가 없음
복잡한 패턴 표현을 위해서는 비선형 활성화가 필요

- 비선형 활성화 함수

1) Sigmoid 함수

- 수식/ 범위

0 < y < 1
S자 곡선

- 장점

출력이 0~1 사이라 확률적 의미로 직관적임
이진 분류의 최종 출력층에 주로 사용

- 단점

입력 절댓값이 크면 미분값이 0에 가까워지는 기울기 소실 발생
출력이 0 중심이 아님
지수 연산(exp) 비용이 커서 은닉층에서 드물게 사용

2) ReLU 함수

- 수식/범위

$\max(0, x)$
음수 : 0
양수 : x

- 장점

계산이 매우 단순하고 학습이 빠름
Sigmoid 대비 기울기 소실 문제를 완화하여 은닉층의 표준으로 사용

- 단점

음수 구간에서는 뉴런이 꺼지는 문제(dying ReLU) 발생
x=0에서 미분 불가

3) tanh 함수

- 수식/범위

-1 < y < 1
S자 곡선

- 장점

중앙 정렬(Zero-centered) 되어 있어, 그래디언트 방향 왜곡
이 적음
학습이 더 안정적

- 단점

입력이 크면 여전히 기울기 소실이 발생

4) Softmax

- 수식

$p_{i}=\frac{\exp(z_{i})}{\sum \exp(z_{j})}$
z(각 클래스 점수), p(확률), exp(지수 함수)

- 특징

모든 출력값을 0과 1 사이로 만듦.
전체 합이 1이 되도록 변환

- 용도

모델의 출력을 직관적인 확률 분포로 바꿈 → 다중 분류의 출력층에서 사용

5. 계층적 학습

비선형 활성화 함수와 여러 층이 결합 → 신경망은 데이터를 점진적이고 계층적으로 이해함

- 이미지 인식의 계층적 학습

1) 저층 (Low-level)

선, 모서리(에지), 방향성 같은 단순하고 기본적인 패턴만 감지
ex) Sobel, Gabor 필터

2) 중충 (Mid-level)

저층에서 찾은 선과 모서리들을 조합해 눈, 코, 입과 같은 부분적인 부위 구조 인식
불변성: 위치, 스케일 변화에 점진적 견고성
효과: 파트 기반 인식으로 의미적 구조 형성

3) 고층 (High-level)

중층의 부위 정보들을 통합하여 '얼굴' 이라는 전체적인 고차원 개념을 형성

2. 선형대수

kimyeji2358 — Sun, 22 Mar 2026 22:03:20 +0900

선형 시스템과 해의 조건

선형 대수학에서 선형 시스템의 행렬 방정식은 Ax = b로 표현된다

이를 벡터 방정식으로 풀어쓰면 아래처럼 된다

$$a_1x_1 + a_2x_2 + a_3x_3 = b$$

- 해가 존재할 조건

벡터 b가 행렬 A의 열벡터들이 만들어내는 Span 영역 안에 있을 때만 해가 존재

$$b \in \text{Span}\{a_1, a_2, a_3\}$$

- 해의 유일성

해가 존재할 경우, 이 해가 1개인지 무수히 많은지는 열벡터들의 관계에 따라 결정

열벡터가 선형 독립인 경우일 때 해가 유일함
열벡터들이 선형 종속이라면 해는 무수히 많이 존재

1. 선형 독립(Linear independence)

선형 독립은 모든 벡터가 각자 자기만의 방향을 가지고 있어서, 서로가 서로를 대체할 수 없는 상태를 말함

- 기하학적 의미

어떤 벡터 집합에 있는 벡터들 중 그 어느 것도 다른 벡터들의 조합(선형 결합)으로 만들 수 없음
ex) 3차원 공간에서 세 벡터가 선형 독립이라면, 이들은 서로 다른 방향을 가리키며 3차원 입체(Span)을 구성

- 수학적 정의

$$x_1v_1 + x_2v_2 + \dots + x_pv_p = 0$$

을 만족시키는 해가 오직

$$x_1 = 0, x_2 = 0, \dots, x_p = 0$$

뿐일 때(= trivial solution), 이 벡터들은 선형 독립임

- 선형 시스템 (Ax=b)에서의 의미

행렬 A의 열벡터들이 선형 독립이라면, 해가 존재할 경우 그 해는 단 1개만 존재

2. 선형 종속(Linear Dependence)

선형 종속은 반대로 벡터들 중 최소한 하나는 다른 벡터들의 조합으로 만들어낼 수 있는 상태

- 기하학적 의미

특정 벡터가 다른 벡터들이 이미 만들어 놓은 공간(Span) 안에 들어가있는 경우
ex) v₃ = 2v₁ + 3v₂ 처럼 표현될 수 있다면, v₃는 새로운 영역을 개척하지 못하므로 선형 종속. 즉, 종속인 벡터가 추가되어도 전체 생성 공간(Span)은 커지지 않음

- 수학적 정의

$$x_1v_1 + x_2v_2 + \dots + x_pv_p = 0$$

을 만족시키는 해 중에서, 0이 아닌 값이 하나라도 존재한다면 선형 종속

- 선형 시스템 (Ax=b)에서의 의미

주어진 시스템의 해가 존재한다고 가정할 때, 행렬 A의 열벡터들이 선형 종속이라면 하나의 벡터를 나타내는 조합의 수가 여러개가 되므로 무수히 많은 해를 가지게 됨.

구분	Span의 확장	Ax = b의 해	방정식의 해
선형 독립	벡터 개수만큼 차원 확장	유일한 해	모두 0인 해만 존재
선형 종속	차원 확장에 기여 못함	무수히 많음	0이 아닌 해가 존재

3. 부분공간(Subspace)과 생성(Span)

- 부분 공간(Subspace)

부분공간 H는 Rⁿ의 부분집합으로, 선형 결합에 대해 닫혀있는(closed) 공간을 의미

- 닫혀있다는 것의 의미

H에 속한 임의의 두 벡터 u₁, u₂와 임의의 스칼라 c, d에 대하여, cu₁ + du₂의 결과값 역시 반드시 H 안에 존재해야 합니다.

특정 벡터들의 생성인 Span{v₁, ..., vp}은 항상 이러한 부분공간의 성질을 만족하며, 실제 모든 부분공간은 특정 벡터들의 Span으로 표현됨.

4. 기저(Basis)와 차원(Dimension)

- 기저(Basis)

부분 공간 H의 기저는 2가지 조건을 만족하는 벡터들의 집합

해당 부분공간 H를 옩ㄴ히 생성(Fully spans)할 수 있어야 함.
서로 선형 독립이어야 함.

- 기저의 비유일성

동일한 부분공간 H을 구성하는 기저 집합은 한 개가 아니라 여러 개가 존재할 수 있다

- 차원 (Dimension)

기저 자체는 여러 개일 수 있지만, 어떤 기저든 그 기저를 구성하는 벡터의 개수는 항상 고유함.

이 벡터의 개수를 부분 공간의 차원이라 부르며, dim H 로 표기함

5. 행렬의 열공간(Column Space) 과 랭크(Rank)

- 열공간(Column Space)

행렬 A의 열공간(Col A)은 A를 구성하는 열벡터들이 만들어내는 부분공간을 뜻함

만약 행렬에 선형 종속인 열이 있다면, 해당 열은 다른 열들의 선형 결합으로 만들어질 수 있으므로 열공간을 구할 떄는 배제됨

- 랭크(Rank)

행렬 A의 랭크는 행렬 A가 가지는 열공간의 차원(Dimension)을 의미

이를 수식으로 나타내면 rank A = dim Col A 가 됨.