메뉴 건너뛰기

오픈AI의 챗GPT 로고./연합뉴스

오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 ‘o3’와 ‘o4 미니’가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 오히려 더 심해졌다는 평가가 나왔다. 환각은 생성형 AI가 실제 존재하지 않는 정보를 사실처럼 만들어내는 현상을 말한다.

20일 정보기술(IT) 전문매체 테크크런치에 따르면 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다. 이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다. 이 모델은 무려 48%의 환각률을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다.

오픈AI는 지난 16일 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다.

성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선됐다는 점에서 이번 결과는 이례적이라는 지적이 나온다.

오픈AI는 이 현상의 원인에 대해 아직 명확한 설명을 내놓지 못하고 있다. 기술 보고서에서는 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과 뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 분석했다. 이어 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다.

AI 업계는 이번 사례가 추론형 모델에 대한 신뢰성에 의문을 제기할 수 있다고 본다. 특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우, 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 나온다.

오픈AI는 “모든 문제 영역에서 환각을 완전히 제거하는 것은 지속적인 연구 과제”라며 “정확성과 신뢰성을 높이기 위한 노력을 이어가고 있다”고 밝혔다.

조선비즈

번호 제목 글쓴이 날짜
46601 운동회 100m 압도적 1위 학부모…알고 보니 올림픽 금메달리스트 [잇슈 SNS] 랭크뉴스 2025.04.21
46600 “실제 상황 입니다”…설산 구조 훈련 중 빙하 와르르 [잇슈 SNS] 랭크뉴스 2025.04.21
46599 이재명, 네거티브엔 무대응·공개일정 최소화…‘스텔스 전략’ 왜? 랭크뉴스 2025.04.21
46598 ‘강·서·송·용’ 다 있네…대선후보가 보유한 아파트 시세는 얼마?[대선후보 부동산②] 랭크뉴스 2025.04.21
46597 [단독] 건진법사, '尹핵관' 윤한홍과 60번 통화... "내가 이 정도도 안 되나" 항의 랭크뉴스 2025.04.21
46596 [현장] “불탄 나무들 휘떡휘떡 넘어져…비 오면 산사태 겁나” 랭크뉴스 2025.04.21
46595 이랜드리테일, 뉴코아 인천논현점 6월 폐점 검토... “아웃렛도 양극화” 랭크뉴스 2025.04.21
46594 [단독] 사람과 자연 공존하는 땅 전국 ‘1만2337㎢’…공존지역 태양광으로 재생에너지 발전 목표치 넘는다 랭크뉴스 2025.04.21
46593 “한 뙈기라도 더!”…최대 간척지 새만금 고지전, 실탄은 어디서? 랭크뉴스 2025.04.21
46592 애플 팀 쿡이 나이키 경영도 챙기는 이유 랭크뉴스 2025.04.21
46591 후보가 "같이 나라 말아먹자"…초유의 딥페이크 대선 전쟁 랭크뉴스 2025.04.21
46590 "이래서 강남강남 하는구나"…강남구 씀씀이 3년뒤 2조↑[양철민의 서울 이야기] 랭크뉴스 2025.04.21
46589 필리핀서 오토바이 강도에 한국인 관광객 피살 랭크뉴스 2025.04.21
46588 보릿고개에 트럼프 리스크 겹친 韓 배터리…국내외 투자 속도조절 [biz-플러스] 랭크뉴스 2025.04.21
46587 민주 이재명 '압도적'‥국힘 '한덕수 변수'에 표류 랭크뉴스 2025.04.21
46586 부활절 휴전, 30시간으로 끝…트럼프 “러·우, 금주 합의 희망” 랭크뉴스 2025.04.21
46585 “갑자기 월세 20만원 내라고요?” 누구를 위한 ‘전세의 월세화’일까?[올앳부동산] 랭크뉴스 2025.04.21
46584 한국인 관광객, 필리핀서 강도 총격에 사망 랭크뉴스 2025.04.21
46583 '이재명 테마주' 상지건설, CB 물량 폭탄 쏟아진다 [이런국장 저런주식] 랭크뉴스 2025.04.21
46582 ‘피고인 尹’ 법정모습 공개… 직접 증인신문 나설까 랭크뉴스 2025.04.21