메뉴 건너뛰기

정승훈 논설위원

생성형 AI의 놀라운 결과물
오픈소스 데이터로는 불가능

오픈AI·메타 등의 침해 내용
내부 증언 등으로 속속 밝혀져
공공연한 비밀은 드러나는 법

AI 개발 기업들 경각심 갖고
저작권 문제 해결에 나서야

언젠가는 드러날 일이었다. 누가 먼저 밝혀내느냐의 문제였고, 언제 시작될 것인가의 문제였을 뿐이다. 생성형 인공지능(AI)의 놀라운 결과물들이 무료로 쓸 수 있는 소위 오픈소스 플랫폼의 데이터만으로 만들어진 것이라고 생각하는 이들은 없었다. 짧은 글, 그림 한 컷에도 다 따라붙는 저작권 콘텐츠 없이 AI가 그렇게 훌륭한 결과물들을 내놓을 수 있다는 생각, 그건 착각 아니면 무지다. 아무리 뛰어난 학생이라도 양질의 교재와 강사를 만나지 않으면 뒤처질 수밖에 없다는 것은 삼척동자도 안다. 천문학적인 시장 규모와 기업의 생존이 걸린 AI 학습 경쟁에서 더 훌륭한 교재와 더 뛰어난 강사를 찾는 건 당연하다. 다만 저작권을 제대로 인정하거나 비용을 지불하지 않았고, 지금도 그러고 있다는 점이 문제다.

개인이 창작한 콘텐츠, 언론사 등 기업이 만든 콘텐츠가 생성형 AI의 학습에 이용됐다는 문제제기는 AI 업계의 큰 이슈다. 관련 소송과 보도가 줄을 이었지만 AI 개발·서비스 기업들은 꿈쩍도 하지 않았다. 빅테크(거대 정보기술기업)들에 비하면 하찮은 개인과 소규모 기업들이 목청을 높여도 저작권 침해를 기술적으로 증명하기 어려울 것이라 생각했고, 실제 그러했기 때문이다. 증언이 없다면 이를 밝힐 수 없을 것이라 봤고, 기업들의 입막음으로 내부자의 폭로는 오랜 시간이 지난 후에나 가능할 것으로 예상했다. 그런데 그 시점이 생각보다 빨리 도래하고 있다.

미국 뉴욕타임스(NYT)는 6일(현지시간) 내부 사정을 잘 아는 소식통들을 인용해 빅테크들이 저작권 규정을 무시한 채 AI 학습용 데이터 확보에 사활을 걸고 있다고 보도했다. 보도에 따르면 챗GPT 개발사 오픈AI는 2021년 수집한 AI 학습용 데이터가 고갈될 상황에 처하자 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다. 영상 속 말소리를 받아적는 프로그램인 ‘위스퍼’(Whisper)까지 개발해 학습시켰다. 유튜브는 플랫폼에 올라온 영상을 다른 독립된 기능을 위해 사용하는 것, 위스퍼와 같은 자동화 프로그램 등을 이용한 영상 후처리를 금지하고 있어 명백한 규정 위반이다. 구글 대변인은 이에 대해 “오픈AI의 해당 관행에 대해 아는 바가 없다”고 부인했으나 NYT는 구글도 규정을 어긴 채 유튜브 영상을 자체 AI 개발에 사용했다고 전했다. 자사도 규정 위반을 한 상황이어서 구글 직원들이 오픈AI의 위반을 인지했음에도 그냥 넘어갔다는 내용도 덧붙였다.

메타는 페이스북·인스타그램 게시물뿐 아니라 인터넷의 소설, 에세이 등에도 무단으로 손을 댄 것으로 나타났다. NYT가 확보한 지난해 3~4월 메타의 회의 기록에 따르면 생성형 AI 담당 부사장은 인터넷에서 이용 가능한 거의 모든 영어 책과 에세이, 시, 뉴스 기사를 사용했다고 임원들에게 말했다. 회의 참석자들은 소송 가능성에도 불구하고 더 많은 데이터 확보 방안을 논의했다. 일부 간부들은 “오픈AI가 챗GPT 개발에 저작권 허가를 받지 못한 데이터를 사용한 것으로 보인다”며 “메타는 ‘시장의 선례’를 따라갈 수 있다”고 말했다고 NYT는 밝혔다.

일부 기업들은 AI가 생성한 데이터로 다시 AI를 학습시키는 ‘합성(synthetic)’ 데이터 활용 방안도 고민 중인 것으로도 전해졌다. 데이터 고갈 문제 해결을 위해서라지만 원 저작권자의 가공된 데이터를 재가공함으로써 창작물의 저작권을 희석시키려하는 것 아니냐는 의심도 생긴다. 2차, 3차 가공된 데이터는 저작권 위반 여부를 판명하기 더 어려워질 것이기 때문이다. 이처럼 짐작 가능했지만 밝혀지기 쉽지 않을 것으로 예상됐던 시나리오가 드러나고 있다. AI가 발전하고 활용이 늘어나면 문제도 많이 불거질 수밖에 없다. 책임 논란이 뒤따를 때마다 AI 학습의 저작권 침해가 드러날 가능성도 높아진다.

생성형 AI 활용을 앞다퉈 홍보하고 있는 국내 기업들은 저작권 문제에서 자유로울까. 일부 콘텐츠 기업들은 이미 빅테크 AI 기업들의 저작권 위반 사례들을 기술적으로 찾아내고 있다. 빅테크 기업들의 위반을 찾아낸 것과 같은 방법으로 국내 기업들의 저작권 침해도 충분히 찾아낼 수 있다. 내부 고발자들의 목소리가 곧 터져나올지도 모른다. 미리 저작권 있는 콘텐츠를 제대로 확보하기를, 이전에 그러지 못했다면 제대로 양해를 얻고 사전에 협의하기를 바란다. 공공연한 비밀은 곧 밝혀지게 돼 있다.

국민일보

번호 제목 글쓴이 날짜
5673 창백한 남성에 “삼촌, 대출 서명하세요”…브라질에서 벌어진 ‘엽기 행각’ [현장영상] 랭크뉴스 2024.04.18
5672 쿠웨이트 도피한 30억 사기범... '국제공조'로 12년 만 국내 송환 랭크뉴스 2024.04.18
5671 셰플러 “하나님의 영광을 위해 나를 이 자리로 부르셨다고 믿는다” 랭크뉴스 2024.04.18
5670 ‘총리 거론’ 박영선 “너무나 중요한 시기, 협치가 긴요하다” 랭크뉴스 2024.04.18
5669 이윤진 “이범수 모의총포 신고했다…몇 년간 공포 떨어” 랭크뉴스 2024.04.18
5668 ‘지구야, 많이 화났니?’…인도네시아 루앙 화산, 번개와 함께 ‘쾅쾅’ [현장영상] 랭크뉴스 2024.04.18
5667 尹 장모 '가석방' 또 심의한다‥대상자 선정되면 이달 말 출소 랭크뉴스 2024.04.18
5666 “그집서 먹었는데 배 아파” 자영업자 괴롭힌 ‘장염맨’ 구속 랭크뉴스 2024.04.18
5665 "바이든, 중국산 철강·알루미늄 관세 3배 인상 추진" 랭크뉴스 2024.04.18
5664 [속보] 거부권에 막혔던 양곡법, 민주당 ‘직회부’ 단독 처리…세월호지원법 등 5개 법안 의결 랭크뉴스 2024.04.18
5663 “문재인 4·3 추념사, 이승만 명예훼손 아냐”…대법서 확정 랭크뉴스 2024.04.18
5662 '총리설' 박영선 "한국 미래 생각한다면 협치가 중요" 랭크뉴스 2024.04.18
5661 천하람, '박영선·양정철 기용설'에 "김건희 여사 라인 추정" 랭크뉴스 2024.04.18
5660 박영선 "너무도 중요한 시기여서 협치 긴요해" 랭크뉴스 2024.04.18
5659 [영상] "더 강하고 더 민첩"…보스턴 다이내믹스 새 '휴머노이드' 로봇 공개 랭크뉴스 2024.04.18
5658 전세사기 피해자 1432명 추가 인정···총 1만5433명으로 확대 랭크뉴스 2024.04.18
5657 윤 대통령, 홍준표와 16일 4시간 배석자 없이 회동···인사·총선 대책 등 논의 랭크뉴스 2024.04.18
5656 제2양곡법, 본회의 직회부…민주, 농해수위서 단독 의결 랭크뉴스 2024.04.18
5655 '책 속에 길이 있다는데···' 성인 10명 중 6명 "1년 간 책 한 권도 안 읽었다" 랭크뉴스 2024.04.18
5654 천하람 “성인 페스티벌 금지 재고…남성 본능 악마화는 정상 사회 아냐” 랭크뉴스 2024.04.18