메뉴 건너뛰기

한글 AI모델 개발해 생태계 확대하려면
학습데이터·컴퓨팅자원 확보 해결 필수
데이터는 비용보다 양과 접근성이 문제
모두 원하는 GPU... 정부 협상력에 달려

편집자주

'소버린 AI'를 강조해온 민간 전문가가 새 정부의 AI미래기획수석에 낙점되면서 AI 주권에 대한 관심이 높다. AI 주권 확보는 물론, 치열한 미래기술 경쟁에서 선도국으로 발돋움하기 위해 시급히 고민하고 해결해야 할 과제들을 짚어본다.
ETRI가 개발한 소형언어모델 '이글'을 활용한 인공지능 수학교사 챗봇 화면. ETRI 제공


한국전자통신연구원(ETRI)은 지난해 한국어 중심 소형언어모델(SLM)인 ‘이글’을 공개했다. 시중에 대형언어모델(LLM)이 많지만, 비용과 컴퓨팅 자원 한계로 활용이 어려운 중소·중견기업들을 위한 인공지능(AI)을 개발한 것이다. 이글이 학습한 데이터 중 약 20%가 한국어 기반이다. 빅테크 기업의 AI는 데이터 중 한국어가 5%에도 못미치는 데다, 영어로 생성한 응답을 한국어로 번역하는 방식이라 연산 자원 소모가 많다. 이에 비해 이글은 한국어 작업에서 다른 모델보다 약 15% 더 높은 성능을 보인다. 기업이 축적한 한글 데이터로 특화 학습을 하기에도 유리하다.

이글은 이재명 대통령이 공약한 ‘모두의 AI’와 비슷한 취지로 개발됐다. 하지만 과정은 순탄치 않았다. 연구팀이 쓴 그래픽처리장치(GPU)는 단 한 대뿐. 그마저도 구축에만 약 2년이 걸렸다. 고성능 GPU만 충분하다면 SLM은 하루면 학습이 가능하지만, 준비에 오랜 시간을 보내야 했다. 데이터 확보 역시 난제였다. 권오욱 ETRI 인공지능창의연구소 지능정보연구본부장은 “영어에 비해 한국어는 양질의 공개된 데이터가 부족하다”며 “SLM도 데이터 투입에 따라 성능이 달라지기 때문에 원활한 데이터 확보를 위한 지원이 필요하다”고 말했다.

ETRI의 사례는 소버린AI 구축 과정에서 겪게 될 난관을 압축적으로 보여준다. 학습용 데이터와 컴퓨팅 자원 등 인프라 부족은 수년째 계속돼온 고질적인 문제다. 하정우 AI미래기획수석의 주장처럼 ‘한국어 파운데이션(기반) 모델’을 개발해 AI 생태계를 확대하려면 인프라부터 해결해야 한다. 전문가들은 공격적인 투자로 문제를 풀되, 한국 특수성에 맞춘 전략 설계가 필요하다고 조언한다.

이재명 정부의 초대 AI미래기획수석으로 임명된 하정우 전 네이버 퓨처AI 센터장이 2024년 5월 서울 중구 대한상공회의소 국제회의장에서 열린 '한국포럼'에서 '하이퍼클로바X의 혁신'을 주제로 발표하고 있다. 하이퍼클로바X는 네이버클라우드가 한국어 데이터를 기반으로 개발한 생성형AI다. 하 수석은 하이퍼클로바X와 같은 한국형 AI 모델을 바탕으로 독자적인 '소버린AI'를 발전시켜야 한다고 주장해왔다. 최주연 기자


데이터: 산업 특화 연합학습으로 '윈-윈'을



19일 소프트웨어정책연구소의 ‘2024 인공지능산업 실태조사’에 따르면 AI 기업 59.5%는 양질의 데이터를 확보하는 데 어려움을 겪고 있다. 2021년 조사에서 같은 답변은 60.8%였다. 지난 4년간 문제가 개선되지 않은 것이다. 기업들의 애로사항은 ‘AI 서비스에 쓸 만한 고품질 데이터 확보가 어렵다’로 귀결된다. 금융·의료 등 민감하지만 가치가 높은 데이터는 수집이 어렵고 개인정보 관련 규제도 많다. 각 기업이 핵심 데이터를 쥐고 있지만, 이를 거래할 시장도 활성화하지 못했다는 지적이다.

그래픽=김대훈 기자


문제 해결을 위해 정부가 내놓은 대책은 ‘돈’이다. 국가인공지능위원회는 지난 2월 ‘국가 AI 역량 강화방안’으로 ‘월드베스트 LLM’ 프로젝트를 제시하며 "AI 국가대표 정예팀을 선발해 양질의 데이터 구입 및 가공 비용을 지원하겠다"고 밝혔다.

전문가들은 그러나 영어와 중국어에 비해 양적으로 부족한 한국어의 특성상 돈 투입만으로는 근본적인 한계가 있다고 지적한다. 대신 한국이 강점을 가진 산업에 특화한 핵심 데이터를 모아 공동으로 연합학습을 하는 윈-윈 전략이 대안으로 제시된다. 바이오 업계에서 진행하는 ‘K-멜로디’가 그런 예다. 김화종 한국제약바이오협회 K-멜로디 사업단장은 “우리나라는 세계 최고의 바이오 데이터를 보유했지만, 기관과 영역별로 호환되지 않아 활용이 어렵다”며 “데이터로 연합학습을 하되 외부로 공유하지 않도록 보완하면 AI 신약개발에 도움이 될 것”이라고 말했다.

GPU: 국가 컴퓨팅센터 구축은 민간 주도로



이재명 정부가 공약한 ‘GPU 5만 개 확보’라는 목표 자체에는 전문가들도 큰 이견이 없다. 오히려 ‘컴퓨팅 인프라는 많으면 많을수록 좋다’는 의견도 나온다. 문제는 재원 마련과 시행에 민간의 참여가 핵심인데, 이를 어떻게 확보해나가느냐다. 당장 2027년까지 GPU 1만 장 규모의 국가 AI컴퓨팅센터를 구축하려는 사업부터 삐걱거리고 있다. 정부가 지분의 51%를 갖고 의사결정을 주도하는 구조로 사업이 설계되면서 민관 합작에 나서는 기업이 없어 공모가 두 번이나 유찰됐다.

정부가 사업 구조를 재검토하면서 민간 기업에 주도권을 넘겨야 한다는 지적이 나온다. 김정호 한국과학기술원(KAIST) 전기및전자공학부 교수는 "GPU 확보 과정에서 국가 지분을 줄이고 기업에 주도권을 주는 방식으로 사업을 개편해야 더 효율적이고 빠르게 추진될 것”이라고 조언했다.

정부가 할 역할은 따로 있다. 주요 컴퓨팅 인프라 확보를 위해 외교력을 발휘하는 것이다. 이재성 중앙대 AI학과 교수는 “모든 국가가 미국 엔비디아에서 GPU를 구하려 하지만 생산량도 제한된 데다 미국도 이를 국가 전략자원으로 보호하고 있다”며 “재원뿐 아니라 정부의 협상 능력이 인프라 확보 속도를 결정할 것”이라고 말했다.

한국일보

번호 제목 글쓴이 날짜
49723 서울 호우주의보에 통제된 동부·북부간선도로 '통행 재개' 랭크뉴스 2025.06.20
49722 [단독] 군 초급간부 초봉 300만원으로 상향 검토… 간부 정년 최대 5년 연장 [이재명 정부 국방개혁] 랭크뉴스 2025.06.20
49721 "이란 원전 폭발땐 체르노빌급 재앙"…전문가들 우려 터졌다 랭크뉴스 2025.06.20
49720 [속보] 청계천·목동천 등 29곳 하천 통제…동부·북부간선도로 통행 재개 랭크뉴스 2025.06.20
49719 ‘140㎜ 폭우’ 인천 도로 침수…호우경보 김포·고양·파주·양주·동두천·포천 랭크뉴스 2025.06.20
49718 [속보] 서울 호우로 출근길 동부간선 곳곳 한때 전면 통제 랭크뉴스 2025.06.20
49717 [단독]김민석 “기독사학은 기독교 가치 전파하는 곳”···교원 임용 규제 반대 발언 랭크뉴스 2025.06.20
49716 머스크 화성탐사선 스타십 지상 폭발… “질소탱크 결함 추정” 랭크뉴스 2025.06.20
49715 서울 호우에 통제된 동부·북부간선도로 통행 재개(종합) 랭크뉴스 2025.06.20
49714 장마 일찍 오면 길었다… 올해도 평년보다 일주일 먼저 와 랭크뉴스 2025.06.20
49713 [속보] 호우로 통제됐던 동부·북부간선도로 통행 재개 랭크뉴스 2025.06.20
49712 "알몸에 힙색만 차고 달렸다"…안산 산책로 '나체男' 깜짝 랭크뉴스 2025.06.20
49711 '트럼프 청구서' 온다…美의 韓국방비 GDP 5% 증액 요구 가시화 랭크뉴스 2025.06.20
49710 서울 동부간선도로 곳곳 통제…청계천 등 29개 하천도 출입 통제 랭크뉴스 2025.06.20
49709 [속보] 동부간선도로 곳곳 전면통제…중랑천·목동천 등 29곳 하천 통제 랭크뉴스 2025.06.20
49708 서울 호우 동부간선 곳곳 통제…성동JC→군자교 등 전면통제 랭크뉴스 2025.06.20
49707 트럼프 “이란 공격 여부 2주 안 결정…협상 가능성 상당해” 랭크뉴스 2025.06.20
49706 [속보] 청계천·도림천·안양천 등 서울시내 하천 29곳 통제 랭크뉴스 2025.06.20
49705 "힙색만 차고 달렸다"…안산 산책로서 '알몸 남성' 등장에 깜짝 랭크뉴스 2025.06.20
49704 인천 도로 침수…김포·고양·파주·양주·동두천·포천 호우경보 랭크뉴스 2025.06.20