🌍 AlexNet (2012)
대규모 이미지 인식에서 CNN의 가능성을 처음으로 증명한 모델로
지금의 CNN, YOLO, ResNet 등 모든 비전 모델의 출발점이 되었습니다.
✅ 활성화 함수 ReLU 등장
기존까지는 활성화 함수로 sigmoid, tanh와 같은 함수를 사용했는데, 이 함수들은 미분하면 0으로 수렴하기 때문에 층이 조금만 깊어도 기울기 소실이 심해, 층을 깊이 쌓을 수 없었습니다.
RELU가 등장하면서 층을 깊게 쌓을 수 있게 되었습니다.

RELU 함수는 결과값이 양수일 때는 미분 값이 그대로 1, 음수일 때는 0으로 기울기가 사라지지 않았습니다.
물론 20층 정도까지는 가능하지만 50층 이상 쌓으면 결국 기울기 값이 작아지는 효과가 발생했습니다
한 번이라도 입력이 음수여서 0으로 꺼지면, 그 뉴런은 그 이후로 영원히 gradient가 0이 됩니다. 이걸 Dead ReLU problem 이라고 합니당

✅ 특징

- 2012년 당시 이미지넷(ImageNet) 대회에서 압도적인 1등 (오류율 16%)
- CNN (Convolutional Neural Network) 구조를 사용
- GPU 연산을 활용해서 대규모 이미지 학습을 가능하게 함
✅ 핵심 구조
[Conv → ReLU → Pool] × 여러 층 → Fully Connected → Softmax
- Conv Layer: 이미지의 국소적인 특징 추출 (가장자리, 패턴 등)
- ReLU: 음수 제거, 학습 안정화
- Pooling: 크기 줄이기, 위치 변화에 덜 민감하게
- FC Layer: 추출한 특징을 종합해 최종 분류
🌍 VGGNet (2014)
복잡한 구조가 아닌, 간단한 구조를 깊은 층으로 쌓음
네트워크를 깊게 쌓으면 성능이 좋아진다는 것을 보여, 이후 딥러닝(Deep Learning)이 진짜로 ‘딥’해지기 시작했음
✅ 특징
- 모든 필터 크기를 3×3로 통일
- 층(Depth)을 16~19개까지 깊게 쌓음
- 규칙적이고 단순한 구조로 CNN의 표준 설계법이 됨
🌍 ResNet (2015)
“딥러닝이 너무 깊으면 오히려 성능이 떨어지는데, 그걸 해결한 모델.”
✅ 문제: 기울기 소실
- 층이 깊어질수록 기울기 소실(Gradient Vanishing) 발생
- 역전파가 초기 층으로 갈수록 기울기가 0에 수렴하면서, 가중치가 업데이트되지 않아 학습이 중단되는 현상이 발생함
✅ 해결: Residual Connection (잔차 연결)


즉, 입력을 다음 층에 바로 더해줌.



기울기가 직접 1을 타고 전달되는 경로가 생겨 F(x)가 잘못되거나 Gradient가 죽더라도 x 경로를 통해서 gradient가 다음 층으로 흘러갈 수 있게 되었습니다. (기울기 소실 문제 해결!)
이 단순한 수식 덕분에 152층짜리 네트워크도 안정적으로 학습됨
ResNet 이후 모든 현대 딥러닝 모델들은 “Skip Connection”을 기본 구조로 탑재되어 있습니다. (CNN, Transformer, LLM 전부 이 개념을 반영)
🌍 YOLO (2016~2024)
You Only Look Once~
이미지 한 장을 한 번에 보고, 물체를 실시간으로 탐지한다.
✅ 기존 객체탐지: R-CNN

- Selective Search로 이미지 안에서 “여기가 물체일 것 같다”는 후보영역(region proposals) 수천 개 추출
- region proposal, feature extraction, classification 등의 작업을 별도로 수행해야 함.
- 각 영역을 CNN에 넣어 클래스 분류 + 위치 보정
- 느리지만 정확도는 높음
| 모델 | 특징 |
|---|---|
| R-CNN (2014) | 후보영역마다 CNN 돌림 → 너무 느림 |
| Fast R-CNN (2015) | 한 번만 CNN 돌리고 feature map에서 영역 추출 |
| Faster R-CNN (2015) | “Region Proposal Network (RPN)” 추가 → 후보영역 자동 생성 |
✅ YOLO의 핵심 아이디어

- 이미지를 S×S 격자로 나눔
- 각 셀에서
- Bounding box 좌표 (x, y, w, h)
- Confidence (물체 존재 확률)
- Class probability (무슨 물체인지)
- 을 한 번에 예측
- 전부 한 번의 forward-pass로 계산됨
- 속도는 수십~수백 배 빨라짐 (실시간 가능)
- 초기 YOLO는 정확도는 다소 낮았지만, 최근 버전(YOLOv5~v8)은 속도와 정확도 모두 개선되어 실용성이 매우 높음.
이미지를 한 번만 본다는 의미는, 기존의 R-CNN 계열은 이미지를 여러 장으로 분할해 여러 번 CNN에 통과시키는 작업을 했는데, YOLO는 원본 이미지를 CNN에 그대로 통과시키는 1번의 과정만을 거친다는 것이다.
✅ 특징
- 이미지를 그대로 CNN에 통과시킴.
- 속도가 빨라져서 실시간 객체 탐지 가능
- 주변 정보까지 학습해 background error가 상대적으로 적음
- 자율주행, CCTV, 로보틱스 등 실시간 비전 시스템의 표준으로 활용
🌍 참고자료
- https://viso.ai/deep-learning/alexnet/
- https://studyopedia.com/deep-learning/recurrent-neural-networks/
- https://dotiromoook.tistory.com/24

도움이 되었다면, 공감/댓글을 달아주면 깃짱에게 큰 힘이 됩니다!🌟
비밀댓글과 메일을 통해 오는 개인적인 질문은 받지 않고 있습니다. 꼭 공개댓글로 남겨주세요!
'AI > 딥러닝' 카테고리의 다른 글
| [AI/DL] FP8부터 H100까지, AI 학습용 GPU와 기술용어 완벽 정리 (0) | 2025.10.21 |
|---|---|
| [AI/DL] 딥러닝의 발전(2): RNN에서 Transformer까지 — 순차 데이터와 Self-Attention 이해하기 (0) | 2025.10.20 |
| [AI/DL] 딥러닝 기본기 총정리: 퍼셉트론·손실함수·옵티마이저 (0) | 2025.10.17 |
| [AI/DL] GAN(Generative Adversarial Networks): Generator vs Discriminator 의 경쟁적인 가짜 찾아내기 (0) | 2024.12.06 |
| [AI/DL] Convolutional Neural Networks(CNN)에서 합성곱 연산과 파라미터 계산 (0) | 2024.10.24 |