분류
AI Hallucination
1. 개요[편집]
인공지능 환각은 인공지능이 실제로 존재하지 않거나 사실과 다른 정보를 마치 사실인 것처럼 그럴듯하게 생성하는 현상이다. 단순한 오답 출력과 구별되는 특징은 모델이 틀린 정보를 높은 자신감을 가지고 확실한 것처럼 단정적으로 제시한다는 점이다.
AI 연구 기업들이 가장 골칫거리로 여기는 문제 중 하나이며, 2026년 현재까지도 완전한 해결책이 존재하지 않는다. 우리가 AI가 내놓는 대답을 맹신하면 안 되는 이유이기도 하다.
AI 연구 기업들이 가장 골칫거리로 여기는 문제 중 하나이며, 2026년 현재까지도 완전한 해결책이 존재하지 않는다. 우리가 AI가 내놓는 대답을 맹신하면 안 되는 이유이기도 하다.
2. 용어 관련 논란[편집]
용어 자체는 인간이 외부 자극 없이 감각을 경험하는 정신의학적 증상인 '환각(Hallucination)'에서 차용했다. 다만 AI 환각은 엄밀히 말해 착각(Illusion)에 가깝다는 시각도 있는데, AI는 학습한 데이터를 비맥락적으로 조합해 오류를 생성하는 것이지 완전히 아무런 근거 없이 정보를 만드는 것은 아니기 때문이다. 뉴스더에이아이 - AI 할루시네이션과 언어강박
3. 원인[편집]
3.1. 데이터 부족과 확률적 언어 예측 구조[편집]
LLM(대형 언어 모델)은 정답을 탐색하는 시스템이 아니라 단어를 출력할 때 마다 문맥상 다음에 올 가능성이 가장 높은 토큰(단어)을 확률적으로 예측하는 구조로 답변을 출력한다. 따라서 사실 여부와 관계없이 그럴듯한 문장을 생성하는 것 자체가 모델의 목적에 부합하는 행동이 된다. 즉 AI는 사실 여부를 검토하는 게 아니라 그냥 다음에 올 단어로 가장 적합할 단어를 예측하여 답변하는 방식이기 때문에 학습된 데이터가 충분하지 않더라도 그냥 일단 출력하고 본다.
특히 법률, 의료 등 전문화된 분야일수록 양질의 학습 데이터가 부족해 환각 발생 확률이 5%에서 30%까지 증가하는 것으로 알려져 있다.
특히 법률, 의료 등 전문화된 분야일수록 양질의 학습 데이터가 부족해 환각 발생 확률이 5%에서 30%까지 증가하는 것으로 알려져 있다.
3.2. 훈련 방식[편집]
3.3. 블랙박스 문제[편집]
최신 모델들은 매개변수(파라미터)가 수조 개를 초과하는 수준에 이르렀다. 이 복잡성으로 인해 개발자조차 모델이 왜 특정 답변을 출력하는지 완전히 이해하기 어렵고, 이로 인해 환각을 사전에 탐지하고 제어하기 어렵다.
그렇기 때문에 최근에는 훈련 데이터와 파라미터를 바꿔가면서 수천, 수만가지의 경우의 수를 가지고 모델을 학습시켜 보고 거기서 가장 우수한 성능을 보이는 모델을 찾아내는 식으로 개발돼고 있다.
그렇기 때문에 최근에는 훈련 데이터와 파라미터를 바꿔가면서 수천, 수만가지의 경우의 수를 가지고 모델을 학습시켜 보고 거기서 가장 우수한 성능을 보이는 모델을 찾아내는 식으로 개발돼고 있다.
4. 유형[편집]
홍콩 과학기술대학교 CAiRE 연구진의 분류에 따르면 AI 환각은 크게 두 가지로 나뉜다.
4.1. 내재적 환각[편집]
내재적(Intrinsic) 환각. 제공된 입력 정보나 맥락과 모순되는 출력을 생성하는 경우를 의미한다. 이는 사용자가 편향적인 성향을 보일 수록 더욱 극심해지는데, AI는 기본적으로 사용자 중심 클라이언트이기 때문에 별도의 프롬프트가 없는 한 기본적으로 사용자가 원하는 방향으로 응답하는 경향이 있기 때문이다.
4.2. 외재적 환각[편집]
외재적(Extrinsic) 환각. 입력 정보에서 전혀 근거를 찾을 수 없는 내용을 생성하는 경우. 아래 예시는 모두 외재적 환각이라고 볼 수 있다.
5. 예시[편집]
5.1. 세종대왕 맥북프로 던짐 사건[편집]
세종대왕의 맥북프로 던짐 사건은 역사서적인 조선왕조실록에 기록된 일화로, 15세기 조선시대 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중, 문서 작성 중단에 대한 담당자에게 분노하여 맥북 프로와 함께 그를 방으로 던진 사건입니다.
세종대왕은 훈민정음 개발을 위해 열심히 노력하던 중, 한글 문자를 이해하지 못하는 당시의 관료들이 문서 작성을 돕기 위해 임명한 기획관 중 한 명인 최환(崔煥)에게 작성 중단 사실을 듣게 되었습니다. 세종대왕은 이에 분노하여 최환을 부르고, 맥북프로를 함께 들고 그를 방으로 불러들이며 화를 내었습니다. 이후, 세종대왕은 훈민정음의 초고 작성을 다른 담당자에게 넘겨주게 되었습니다.
이 사건은 조선시대의 통치자로서 세종대왕이 어떻게 민족문화를 발전시키기 위해 노력했는지를 보여주는 일화로 유명합니다. 또한, 세종대왕의 열정과 업무처리에 대한 철저한 태도를 보여주는 사례로도 언급하고 있습니다.
ChatGPT 환각의 대명사로 꼽히는 사례. "조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘"라는 질문에 ChatGPT가 "15세기 세종대왕이 훈민정음 초고 작성 중 담당자에게 분노해 맥북프로와 함께 그를 방으로 던졌다"고 답변한 사건이다.[1] 이후 패치를 통해 해당 질문에 대한 정상 응답이 가능해졌다.
5.2. 미국 연방법원 가짜 판례 사건[편집]
5.3. 붉은사슴뿔버섯 관련 허위 정보 대량 게시 사건[편집]
희대의 맹독버섯으로 알려진 붉은사슴뿔버섯이 식용 가능하다며 요리법, 효능, 항암제로 사용하는 법 등 절대 불가능한 가짜 정보가 네이버 블로그를 중심으로 퍼져나간 사례가 있다. 이는 2025년 6월 8일, 커뮤니티를 통해 공론화되었다. # 이와 같은 글은 모두 AI로만 블로그를 작성해 돈을 버는 AI 블로거들에 의해 삽시간에 네이버를 장악했다.[3] 당시 네이버에는"붉은사슴뿔버섯"만 입력해도 효능, 항암제로서의 사용 등과 같은 블로그 글들이 상위권에 노출되어 문제가 매우 심각했다. 더욱 심각한 것은 2024년부터 관련된 허위 정보가 게시된 것이 확인되었다는 것이며, 현재까지 얼마나 많은 허위 정보가 범람했을 지도 알 수 없을 정도이다.
위 문제는 ChatGPT의 환각으로 인해 발생한 문제로, "붉은사슴뿔버섯"과 같이 한국어 한정으로만 사용되는 전용 단어 등에서 흔하게 나타나는 현상이다. 학명을 사용하면 그제서야 올바른 정보를 출력한다. 당시에 ChatGPT에 관련된 질문을 하면 식용이 가능하다며 다른 버섯의 다른 이름이기도 하다는 둥 심각할 정도로 환각 현상이 발생하는 것을 볼 수 있었다.
문제가 심각하게 번지자 산림청 국립산림과학원에서까지 붉은시슴뿔버섯 관련 경고성 보도자료를 게시하였다. 산림청 - 맹독성 ‘붉은사슴뿔버섯’ 섭취 금지
2026년 현재는 일부 글을 제외하면 블로그 작성자들이 글을 내렸거나, 네이버 측에서 직접 삭제하여 어느정도 해결되었다.
뉴스1 - "맛도 좋고 건강에 좋다?"…맹독 지닌 '붉은사슴뿔버섯' 거짓 레시피 논란
위 문제는 ChatGPT의 환각으로 인해 발생한 문제로, "붉은사슴뿔버섯"과 같이 한국어 한정으로만 사용되는 전용 단어 등에서 흔하게 나타나는 현상이다. 학명을 사용하면 그제서야 올바른 정보를 출력한다. 당시에 ChatGPT에 관련된 질문을 하면 식용이 가능하다며 다른 버섯의 다른 이름이기도 하다는 둥 심각할 정도로 환각 현상이 발생하는 것을 볼 수 있었다.
문제가 심각하게 번지자 산림청 국립산림과학원에서까지 붉은시슴뿔버섯 관련 경고성 보도자료를 게시하였다. 산림청 - 맹독성 ‘붉은사슴뿔버섯’ 섭취 금지
2026년 현재는 일부 글을 제외하면 블로그 작성자들이 글을 내렸거나, 네이버 측에서 직접 삭제하여 어느정도 해결되었다.
뉴스1 - "맛도 좋고 건강에 좋다?"…맹독 지닌 '붉은사슴뿔버섯' 거짓 레시피 논란
6. 역설: 더 발전할수록 환각이 늘어난다?[편집]
통상적으로 모델이 업데이트될수록 환각이 줄어드는 것이 정설이었으나, 2025년 OpenAI의 추론 모델에서 이 공식이 깨지는 현상이 관측되었다. OpenAI 사내 벤치마크(PersonQA) 기준으로 o1 모델의 환각률은 16%였으나, o3는 33%, o4 미니는 무려 48%에 달했다. 파이낸셜뉴스 - 챗GPT 환각률 48% OpenAI는 기술 보고서에서 모델이 더 많은 요청에 응답하게 되면서 잘못된 결과 출력도 함께 증가한 것으로 보인다고 분석했으나, 정확한 원인 규명을 위해 추가 연구가 필요하다는 입장을 밝혔다.
gpt-5-thinking-mini 모델은 모델이 정확한 답을 모를경우 답변하지 않는 식으로 환각 현상을 상당히 감소시켰다. 하지만 오히려 정확도는 4o-mini 대비 2% 감소했다.
특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 제기되고 있다.
gpt-5-thinking-mini 모델은 모델이 정확한 답을 모를경우 답변하지 않는 식으로 환각 현상을 상당히 감소시켰다. 하지만 오히려 정확도는 4o-mini 대비 2% 감소했다.
특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 제기되고 있다.
7. 해결 방안[편집]
7.1. CoT(Chain-of-Thought)[편집]
복잡한 문제를 단계적으로 사고하도록 유도하는 프롬프트 설계 방식이다. 모델이 즉흥적으로 답을 내놓는 대신 사고 흐름을 따라가며 신중하게 응답하도록 유도해 환각을 감소시킨다.[4] 다만 완전한 해결책은 아니며 환각 빈도를 줄이는 보완책에 지나지 않는다.
7.2. 웹 검색[편집]
최신 LLM 대부분은 실시간 웹 검색 기능을 탑재하고 있다. 이 기능을 켜면 AI가 모르는 정보에 대해 웹 검색을 통해 답변할 수 있게 해주며, 지식 단절로 인해 최신 정보를 모르는 경우에도 답변이 가능해진다. 따라서 이 기능을 켜면 환각이 상당히 줄어들 수 있다.
8. 관련 문서[편집]
[1] 요즘IT - AI 할루시네이션[2] #, Mata v. Avianca, Inc. (678 F. Supp. 3d 443), ECF 54[3] 자사의 블로그를 검색 결과 상단에 띄우는 네이버 검색 엔진 특징 상 더욱 그랬다.[4] 디지털소사이어티 - AI 환각