메뉴 건너뛰기

정승훈 논설위원

생성형 AI의 놀라운 결과물
오픈소스 데이터로는 불가능

오픈AI·메타 등의 침해 내용
내부 증언 등으로 속속 밝혀져
공공연한 비밀은 드러나는 법

AI 개발 기업들 경각심 갖고
저작권 문제 해결에 나서야

언젠가는 드러날 일이었다. 누가 먼저 밝혀내느냐의 문제였고, 언제 시작될 것인가의 문제였을 뿐이다. 생성형 인공지능(AI)의 놀라운 결과물들이 무료로 쓸 수 있는 소위 오픈소스 플랫폼의 데이터만으로 만들어진 것이라고 생각하는 이들은 없었다. 짧은 글, 그림 한 컷에도 다 따라붙는 저작권 콘텐츠 없이 AI가 그렇게 훌륭한 결과물들을 내놓을 수 있다는 생각, 그건 착각 아니면 무지다. 아무리 뛰어난 학생이라도 양질의 교재와 강사를 만나지 않으면 뒤처질 수밖에 없다는 것은 삼척동자도 안다. 천문학적인 시장 규모와 기업의 생존이 걸린 AI 학습 경쟁에서 더 훌륭한 교재와 더 뛰어난 강사를 찾는 건 당연하다. 다만 저작권을 제대로 인정하거나 비용을 지불하지 않았고, 지금도 그러고 있다는 점이 문제다.

개인이 창작한 콘텐츠, 언론사 등 기업이 만든 콘텐츠가 생성형 AI의 학습에 이용됐다는 문제제기는 AI 업계의 큰 이슈다. 관련 소송과 보도가 줄을 이었지만 AI 개발·서비스 기업들은 꿈쩍도 하지 않았다. 빅테크(거대 정보기술기업)들에 비하면 하찮은 개인과 소규모 기업들이 목청을 높여도 저작권 침해를 기술적으로 증명하기 어려울 것이라 생각했고, 실제 그러했기 때문이다. 증언이 없다면 이를 밝힐 수 없을 것이라 봤고, 기업들의 입막음으로 내부자의 폭로는 오랜 시간이 지난 후에나 가능할 것으로 예상했다. 그런데 그 시점이 생각보다 빨리 도래하고 있다.

미국 뉴욕타임스(NYT)는 6일(현지시간) 내부 사정을 잘 아는 소식통들을 인용해 빅테크들이 저작권 규정을 무시한 채 AI 학습용 데이터 확보에 사활을 걸고 있다고 보도했다. 보도에 따르면 챗GPT 개발사 오픈AI는 2021년 수집한 AI 학습용 데이터가 고갈될 상황에 처하자 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다. 영상 속 말소리를 받아적는 프로그램인 ‘위스퍼’(Whisper)까지 개발해 학습시켰다. 유튜브는 플랫폼에 올라온 영상을 다른 독립된 기능을 위해 사용하는 것, 위스퍼와 같은 자동화 프로그램 등을 이용한 영상 후처리를 금지하고 있어 명백한 규정 위반이다. 구글 대변인은 이에 대해 “오픈AI의 해당 관행에 대해 아는 바가 없다”고 부인했으나 NYT는 구글도 규정을 어긴 채 유튜브 영상을 자체 AI 개발에 사용했다고 전했다. 자사도 규정 위반을 한 상황이어서 구글 직원들이 오픈AI의 위반을 인지했음에도 그냥 넘어갔다는 내용도 덧붙였다.

메타는 페이스북·인스타그램 게시물뿐 아니라 인터넷의 소설, 에세이 등에도 무단으로 손을 댄 것으로 나타났다. NYT가 확보한 지난해 3~4월 메타의 회의 기록에 따르면 생성형 AI 담당 부사장은 인터넷에서 이용 가능한 거의 모든 영어 책과 에세이, 시, 뉴스 기사를 사용했다고 임원들에게 말했다. 회의 참석자들은 소송 가능성에도 불구하고 더 많은 데이터 확보 방안을 논의했다. 일부 간부들은 “오픈AI가 챗GPT 개발에 저작권 허가를 받지 못한 데이터를 사용한 것으로 보인다”며 “메타는 ‘시장의 선례’를 따라갈 수 있다”고 말했다고 NYT는 밝혔다.

일부 기업들은 AI가 생성한 데이터로 다시 AI를 학습시키는 ‘합성(synthetic)’ 데이터 활용 방안도 고민 중인 것으로도 전해졌다. 데이터 고갈 문제 해결을 위해서라지만 원 저작권자의 가공된 데이터를 재가공함으로써 창작물의 저작권을 희석시키려하는 것 아니냐는 의심도 생긴다. 2차, 3차 가공된 데이터는 저작권 위반 여부를 판명하기 더 어려워질 것이기 때문이다. 이처럼 짐작 가능했지만 밝혀지기 쉽지 않을 것으로 예상됐던 시나리오가 드러나고 있다. AI가 발전하고 활용이 늘어나면 문제도 많이 불거질 수밖에 없다. 책임 논란이 뒤따를 때마다 AI 학습의 저작권 침해가 드러날 가능성도 높아진다.

생성형 AI 활용을 앞다퉈 홍보하고 있는 국내 기업들은 저작권 문제에서 자유로울까. 일부 콘텐츠 기업들은 이미 빅테크 AI 기업들의 저작권 위반 사례들을 기술적으로 찾아내고 있다. 빅테크 기업들의 위반을 찾아낸 것과 같은 방법으로 국내 기업들의 저작권 침해도 충분히 찾아낼 수 있다. 내부 고발자들의 목소리가 곧 터져나올지도 모른다. 미리 저작권 있는 콘텐츠를 제대로 확보하기를, 이전에 그러지 못했다면 제대로 양해를 얻고 사전에 협의하기를 바란다. 공공연한 비밀은 곧 밝혀지게 돼 있다.

국민일보

번호 제목 글쓴이 날짜
5728 대테러복 입은 BTS 뷔…특수임무대 복무 사진 공개 랭크뉴스 2024.04.18
5727 ‘총리 검토설’ 휘말린 박영선 “협치 긴요…한국 중요한 시기” 랭크뉴스 2024.04.18
5726 "대통령 국정 지지율 27%, 2주 전보다 11%포인트 하락" 랭크뉴스 2024.04.18
5725 오세훈표 ‘안심소득’ 3단계 시범사업 492가구 참여…영케어러 지원 랭크뉴스 2024.04.18
5724 정원 늘려도 '합격 컷' 더 올랐다…간호대 증원, 의대와 뭐가 달랐나 랭크뉴스 2024.04.18
5723 조규홍 복지장관 “의료개혁, 흔들림없이 완수하겠다” 랭크뉴스 2024.04.18
5722 주중대사 갑질 이어 ‘김영란법 위반’ 신고…“수천만원 협찬받아” 랭크뉴스 2024.04.18
5721 연극배우 주선옥, 연습 중 쓰러져 뇌사…장기기증으로 3명에 새 생명 랭크뉴스 2024.04.18
5720 양곡법부터 특검법까지… 巨野 쟁점 법안 강행 랭크뉴스 2024.04.18
5719 "음주 불가능" 검찰 해명에‥이화영 측 "술판 충분히 가능" 재반박 랭크뉴스 2024.04.18
5718 尹 1호 거부권 '제2양곡법'... 野, 본회의에 직회부 랭크뉴스 2024.04.18
5717 연극배우 주선옥, 연습 중 쓰러져 뇌사…3명에 새 삶 주고 떠났다 랭크뉴스 2024.04.18
5716 박영선 "대한민국 미래 너무도 중요한 시기‥협치 긴요하다" 랭크뉴스 2024.04.18
5715 '총리설' 박영선 "우리에게 필요한 것은 협치" 랭크뉴스 2024.04.18
5714 외국인 비율 5%…은행의 VIP 손님 된 ‘외국인 근로자’ [비즈니스 포커스] 랭크뉴스 2024.04.18
5713 수원지검 찾아간 민주… “이화영 술판 회유는 수사농단” 랭크뉴스 2024.04.18
5712 ‘윤석열 협박’ 유튜버 김상진, 1심 징역 1년 선고…법정구속 랭크뉴스 2024.04.18
5711 이웃집 택배 훔친 女 "죽겠다" 난동…007 뺨친 특공대 검거작전 [영상] 랭크뉴스 2024.04.18
5710 '5년만 경영 복귀' 이서현, 첫 해외출장지는 '디자인 선언' 밀라노 랭크뉴스 2024.04.18
5709 홍준표 "윤 대통령 만찬에서 김한길 국무총리·장제원 비서실장 추천" 랭크뉴스 2024.04.18