분류
1. 개요[편집]
Generative AI
생성형 인공지능은 텍스트, 이미지, 오디오, 영상 등 새로운 콘텐츠를 생성할 수 있는 인공지능 모델을 통칭하는 말이다. 기존의 판별형(Discriminative) AI가 입력 데이터를 분류·예측하는 데 초점을 맞췄다면, 생성형 AI는 학습한 데이터의 패턴을 바탕으로 새로운 결과물을 만들어낸다.
생성형 인공지능은 텍스트, 이미지, 오디오, 영상 등 새로운 콘텐츠를 생성할 수 있는 인공지능 모델을 통칭하는 말이다. 기존의 판별형(Discriminative) AI가 입력 데이터를 분류·예측하는 데 초점을 맞췄다면, 생성형 AI는 학습한 데이터의 패턴을 바탕으로 새로운 결과물을 만들어낸다.
2. 역사[편집]
2.1. 초기 연구 단계[편집]
2.2. 대중화 시대[편집]
3. 원리[편집]
생성형 AI는 크게 다음과 같은 방식으로 동작한다.
- 사전 학습(Pre-training): 대규모 데이터셋을 통해 언어 또는 이미지의 패턴을 학습한다. 이때 수많은 AI 크롤러들이 불특정 다수의 사이트에 접속하여 트래픽을 과도하게 증가한 사례가 있다.
- 미세 조정(Fine-tuning): 특정 목적에 맞게 추가 학습을 진행한다.
- RLHF(인간 피드백 강화학습): 인간 평가자의 피드백을 바탕으로 모델 출력을 개선한다. 이 학습 방식으로 인해 인공지능 환각 문제가 해결되지 않고 있다. 논란 및 문제점 문단 참고.[4]
4. 주요 모델 및 서비스[편집]
4.1. 텍스트 생성[편집]
4.2. 이미지 생성[편집]
4.3. 오디오 생성[편집]
- Suno
4.4. 비디오 생성[편집]
5. 논란 및 문제점[편집]
5.1. 과도한 웹 트래픽 유발[편집]
생성형 AI 모델 학습을 위한 데이터 수집 과정에서 AI 크롤링 봇이 웹사이트에 과도한 트래픽을 유발한다는 문제가 심각하게 대두되고 있다. 오픈소스 소셜 네트워크 diaspora 프로젝트의 경우, 60일간 발생한 전체 요청의 70% 이상이 LLM 관련 크롤링 봇에서 발생했으며, 특정 시점에는 초당 10건 이상의 요청이 집중되어 데이터베이스 서버에 반복적으로 과부하가 발생했다.
Anthropic의 ClaudeBot은 수리 정보 사이트 iFixit에 하루에만 약 100만 건에 달하는 요청을 보내 서버 경보 시스템을 작동시켜 운영팀이 긴급 출동한 적도 있다.[6] Akamai의 분석에 따르면 2025년 7~8월 기간 동안 커머스 업계에서만 250억 건 이상의 AI 봇 요청이 관찰되었다.[7]
심지어 일부 AI 개발사들은 공식적으로 등록되지 않은 크롤러를 운용하거나, User Agent 문자열을 임의로 변경해 차단을 우회하고 있다. Cloudflare에 따르면 AI 크롤링 활동의 30~40%는 신원을 공개하지 않는 미신고 크롤러에서 발생하는 것으로 추정된고 한다.[8] 웹사이트 운영자는 robots.txt로 크롤링을 거부해도 막대한 대역폭 비용을 부담하게 되는 반면, 실질적인 이득은 전혀 얻지 못하는 구조적 피해를 입고 있다.[9]
이처럼 AI 봇 트래픽이 실제 사람의 트래픽을 넘어서는 역전 현상으로 인해 사이트 소유자들은 본인의 서버비를 납부해가며 본인의 것도 아닌 AI 모델을 학습시켜 주고 있다.
코딩애플 - AI봇의 습격과 의적 딥길동
Anthropic의 ClaudeBot은 수리 정보 사이트 iFixit에 하루에만 약 100만 건에 달하는 요청을 보내 서버 경보 시스템을 작동시켜 운영팀이 긴급 출동한 적도 있다.[6] Akamai의 분석에 따르면 2025년 7~8월 기간 동안 커머스 업계에서만 250억 건 이상의 AI 봇 요청이 관찰되었다.[7]
심지어 일부 AI 개발사들은 공식적으로 등록되지 않은 크롤러를 운용하거나, User Agent 문자열을 임의로 변경해 차단을 우회하고 있다. Cloudflare에 따르면 AI 크롤링 활동의 30~40%는 신원을 공개하지 않는 미신고 크롤러에서 발생하는 것으로 추정된고 한다.[8] 웹사이트 운영자는 robots.txt로 크롤링을 거부해도 막대한 대역폭 비용을 부담하게 되는 반면, 실질적인 이득은 전혀 얻지 못하는 구조적 피해를 입고 있다.[9]
이처럼 AI 봇 트래픽이 실제 사람의 트래픽을 넘어서는 역전 현상으로 인해 사이트 소유자들은 본인의 서버비를 납부해가며 본인의 것도 아닌 AI 모델을 학습시켜 주고 있다.
코딩애플 - AI봇의 습격과 의적 딥길동
5.2. 저작권 문제[편집]
5.3. 인공지능 환각(AI Hallucination)[편집]
5.4. 악용[편집]
6. 관련 문서[편집]
[1] GAN은 생성자(Generator)와 판별자(Discriminator)가 서로 경쟁하며 학습하는 구조다.[2] Vaswani et al., 2017, arXiv[3] Reuters, 2023-02-01[4] Christiano et al., 2017, arXiv[5] Stability AI 공식 사이트[6] AI Marketplace - Anthropic ClaudeBot 스크래핑 논란[7] Akamai - 2025년 AI 봇 트래픽 보고서[8] ITWorld - 생성형 AI가 낳은 숨은 괴물 AI 크롤러[9] ITWorld - 생성형 AI 크롤러가 불러온 비용 재앙