메뉴 건너뛰기

AI 기술·서비스 개발 스타트업 전문가들
딥시크 논문·보고서·소스코드 심층 분석
"절박함에 인프라 뒷받침돼 나온 결과물
기존 기술 집요하게 튜닝해서 한계 극복
오픈-폐쇄 진영 기술 격차 2개월로 줄여"

편집자주

딥시크는 중국 인공지능(AI) 굴기의 신호탄일 뿐입니다. 중국이 과감한 투자와 인재 확보로 다져진 AI 기술을 세계 무대에 본격 선보이기 시작했습니다. 한국일보는 ‘깊고 넓게’ 뻗어가는 중국 AI 기술의 진면목을 뜯어봤습니다.
18일 서울 중구 한국일보를 찾은 스타트업 AI 전문가들이 중국 딥시크 기술에 대해 설명하고 있다. 왼쪽부터 이현호 업스테이지 AI모델개발총괄, 변형진 이스트소프트 CAIO, 김형준 BHSN AI최고개발책임자(CAIO). 박시몬 기자


“기술적으로 보면 전혀 새롭지 않다. 인공지능(AI)의 연산과 학습 능력을 최적화한 엔지니어링, 절박함에서 발휘된 창의성의 집약체다.”

국내 AI 스타트업 전문가들은 중국 생성형 AI 딥시크의 기술에 대해 입을 모아 이렇게 평가했다. 딥시크가 미국 오픈AI의 챗GPT, 메타의 라마(LLaMa) 등 빅테크 AI 모델과 비교해 적은 비용으로 우수한 성능을 구현할 수 있었던 비결로 엔지니어링과 창의성을 꼽은 것이다.

지난 18일 서울 중구 한국일보 본사에 모여 딥시크의 AI 모델인 V3와 R1의 소스코드와 논문, 기술 보고서를 심층 분석한 이들은 역사적인 기술 진전의 이면에 담긴 개발자들의 '절박함'을 읽어냈다. 엔비디아의 고성능 그래픽처리장치(GPU)인 H100의 대중 수출을 제한한 미국의 제재에 맞서 저사양 GPU인 H800으로라도 반드시 독자 기술을 확보해내겠다는 절실함과 자신감이 창의적인 엔지니어링 기법 구현으로 이어졌다는 분석이다.

기술 분석을 함께한 이들은 김형준 BHSN AI최고개발책임자(CAIO), 변형진 이스트소프트 CAIO, 이현호 업스테이지 AI모델개발총괄이다. 모두 각 기업에서 AI 모델과 서비스 개발을 진두지휘하는 전문가들이다.

"라마는 제너럴리스트, 딥시크는 스페셜리스트"

중국 스타트업이 개발한 생성형 AI '딥시크'의 서비스 화면. 로이터 연합뉴스


딥시크는 AI 모델의 학습과 훈련 과정에서 고성능 H100에 의존하는 대신 엔지니어링을 강화해 비용을 낮췄다. 딥시크가 주로 활용한 엔지니어링 기법은 '전문가혼합(MoE)'이다. 모델을 여러 분야의 ‘전문가’로 구분하고, 질의에 따라 관련 전문가 부분만 활성화해 효율을 높이는 방식이다. 딥시크-R1 모델의 MoE는 6,710억 개의 매개변수(파라미터)를 가졌지만, 질의를 받았을 땐 370억 개만 활성화하도록 설계됐다. 그래서 우수한 성능을 유지하면서도 전체 연산량이 줄어 비용 절감이 가능했다. 고성능 생성형 AI를 만들려면 매개변수를 늘려야 한다는 고정관념을 깬 것이다.

변 CAIO는 "메타의 라마가 제너럴리스트라면 딥시크는 스페셜리스트를 여럿 두고 입력된 질문에 맞게 선택해 활성화하는 방식"이라며 "챗GPT도 MoE 기법을 쓰지만 각각의 전문가가 굉장히 큰 것과 달리 딥시크는 각 전문가가 GPU 1장에 담길 정도로 충분히 작다"고 설명했다.

18일 서울 중구 한국일보사를 찾은 변형진 이스트소프트 CAIO가 딥시크의 엔지니어링 기법에 대해 설명하고 있다. 박시몬 기자


딥시크의 엔지니어링 기법 중 강화학습 역시 챗GPT와 차이가 크다고 전문가들은 짚었다. 변 CAIO는 “챗GPT는 한 GPT가 답을 내고 다른 GPT가 사람의 채점 기준을 배워 평가하는 걸 계속하는 '휴먼 피드백 강화학습'을 썼다"며 "이런 강화학습 방식은 비용이 매우 비싸다"고 지적했다.

딥시크는 휴먼 피드백이 아닌 '규칙 기반 강화학습'만으로 모델을 학습시키는 접근을 택했다. 규칙 기반 강화학습은 AI 학습자가 사전 정의된 규칙을 활용, 행동을 선택하거나 탐색을 제한하는 방식을 말한다. 김 CAIO는 “딥시크의 강화학습은 수학 문제를 풀 듯 정답이 명확한 도메인에서 학습을 시켜 일종의 크리틱(평가)을 단순화한 것”이라며 “이런 규칙 기반의 강화학습을 적용해 거기서 학습한 AI의 추론 능력을 일반 도메인으로 확장시켰더니 전반적인 성능이 올랐다는 게 딥시크 엔지니어링 아이디어의 핵심”이라고 강조했다.

18일 서울 중구 한국일보사를 찾은 김형준 BHSN AI최고개발책임자(CAIO)가 딥시크 기술에서 의미 있는 부분들을 설명하고 있다. 박시몬 기자


딥시크 소스 응용 봇물... 노트북 GPU로 돌리는 AI 모델도



전문가들은 딥시크의 논리 추론 소스코드가 공개된 점이 국내 업계에 큰 영향을 미쳤다는 데 모두 동의했다. 이 총괄은 “AI의 추론 성능을 높여 보자는 연구는 많았지만, 오픈AI가 공개 정책을 펴지 않은 탓에 한계가 적지 않았다. 하지만 딥시크가 논리 추론을 오픈소스 코드로 공개한 덕분에 AI 학습의 '레시피'가 밝혀지면서 개발자들에게 굉장히 큰 인사이트를 줬다”라고 말했다. 그간 업계에선 AI 오픈소스를 지지하는 개방형 진영과 비공개 전략을 고수해온 폐쇄형 진영 간 기술 격차가 대략 1년 정도 난다고 알려져 있었다. 그런데 "딥시크가 나오고 나서 이 차이가 2개월 정도로 줄었고, 오픈AI도 개방성을 높이고 있다”고 이 총괄은 설명했다.

이날 전문가들이 AI와 머신러닝 모델을 위한 오픈소스 플랫폼인 '허깅 페이스'를 함께 확인해보니 딥시크의 소스코드를 활용한 다양한 AI 모델이 이미 117개나 만들어져 올라와 있었다. "노트북에 있는 GPU로 돌려볼 수 있을 정도로 경량화한 딥시크 변형 모델도 있다. 오픈소스 진영에선 딥시크 코드를 이용해 여러 가지 기술적 시도를 해보며 연구를 발전시키고 있는 것”이라고 변 CAIO는 말했다.

18일 서울 중구 한국일보사를 찾은 이현호 업스테이지 AI모델개발총괄이 딥시크 오픈소스의 영향에 대해 설명하고 있다. 박시몬 기자


이날 전문가들은 딥시크가 “완전히 새로운 모델이 탄생한 것은 아니다”라고 입을 모았다. 딥시크는 기존 대형언어모델(LLM)과 마찬가지로 ‘트랜스포머’를 뼈대로 설계됐다. 트랜스포머는 데이터의 관계를 추적해 맥락과 의미를 학습하는 최신 딥러닝 모델이다. 허깅페이스에서 트랜스포머 모델을 검색하면 약 51만6,000개가 나온다. 변 CAIO는 “LLM에 적용하는 아키텍처(시스템의 구조와 동작 원리)들은 크게 다르지 않다”라며 “딥시크는 세상에 없던 모델이 나타난 게 아니라, 기존 LLM과 관련해 차곡차곡 쌓였던 연구 결과들을 집요하게 튜닝(기존 모델을 조정하는 과정)해 한계를 돌파한 결과물”이라고 설명했다.

18일 서울 중구 한국일보사에 모인 국내 스타트업의 AI 전문가들이 오픈소스 커뮤니티 '허깅 페이스' 화면을 보며 이야기를나누고 있다. 박시몬 기자


중국이 이런 시도를 할 수 있었던 건 AI 개발에 필요한 인프라가 빠르게 갖춰졌기 때문이다. 정보기술(IT) 강국으로 불릴 만큼 관련 인재가 많은데도 우리나라에서 딥시크 같은 AI 모델이 나오지 못한 이유가 바로 여기에 있다고 전문가들은 지적했다. 아무리 창의적인 아이디어가 있어도 GPU와 전력 같은 AI 인프라 기반이 부족하면 실제 모델로 구현해보지 못한다는 것이다. 이 총괄은 “개발자 입장에선 GPU만 확보하면 LLM을 만들 생각을 해볼 수 있는데, 국내엔 GPU가 턱없이 부족하다”고 호소했다.

기술 분석에 참여한 기업들■업스테이지
2020년 설립된 AI 솔루션 기업. 기업들의 비즈니스 문제 해결과 혁신 성장을 돕는 AI 솔루션을 개발, 제공하고 있다. 자체 학습 거대언어모델(LLM) '솔라', 문서 디지털화를 지원하는 광학 문자 인식 솔루션 '다큐먼트 AI'를 사업화해 서비스하는 중이다.
■이스트소프트
1993년 설립된 AI 서비스 기업. 실사형 가상인간을 생성해 콘텐츠 제작과 영상 번역을 지원하는 AI 휴먼 '페르소닷에이아이', 언어모델 성능 평가 지표인 AI 검색엔진 '앨런'을 서비스하고 있다. '국민 소프트웨어'로 불리는 알집, 알약 서비스도 제공한다.
■BHSN
2020년 설립된 AI 리걸테크 기업. 법률 분야에 특화한 AI 솔루션을 개발, 제공하고 있다. 클라우드 기반의 AI 법률 솔루션 ‘앨리비’에 자체 개발 법률 특화 LLM을 적용해 계약서 작성과 검토, 관리 등 법무 업무가 정확하고 신속하게 진행되도록 돕는다.

한국일보

번호 제목 글쓴이 날짜
46817 ‘강남맘’ 이수지 660만뷰 돌풍…현실고증은 어떻게 신드롬이 됐나 new 랭크뉴스 2025.02.24
46816 명태균 측 "홍준표와 최소 네 번 만나… 검찰에 증거 제출" new 랭크뉴스 2025.02.24
46815 “탄핵 인용땐 한강 피바다”…한강 작가 폄훼 논객 내전 선동 new 랭크뉴스 2025.02.24
46814 [단독] 김성훈 손들어준 검찰…“증거인멸 소지” 경호처 문건에도 영장 기각 new 랭크뉴스 2025.02.24
46813 위너스, 6개월 만에 새내기株 ‘따따블’ new 랭크뉴스 2025.02.24
46812 “오요안나 1년간 무단결근 4번, 지각 5번”… 근태 기록 유출 new 랭크뉴스 2025.02.24
46811 코레일, 승차권 29억원 구매 뒤 99% 취소 '얌체회원' 5명 고소 new 랭크뉴스 2025.02.24
46810 “올해 벚꽃놀이는 언제?” 4월 초는 돼야 ‘만개’ new 랭크뉴스 2025.02.24
46809 삼성전자, 10세대 낸드플래시 양산에 日 식각 장비 신규 도입… 원가절감·공급망 다변화 new 랭크뉴스 2025.02.24
46808 금융당국, ‘대출금리에 기준금리 인하 반영’ 직접 챙긴다 new 랭크뉴스 2025.02.24
46807 美블랙요원 주장 ‘캡틴 아메리카’ 尹 지지자…“미국 국적 아냐” new 랭크뉴스 2025.02.24
» »»»»» "딥시크 기술 새롭진 않지만... 엔지니어링과 창의성의 집약체" [대륙의 AI가 온다] new 랭크뉴스 2025.02.24
46805 회사에서 치이고 집에서 눌리고…한국 남성 '심각한' 통계 나왔다 new 랭크뉴스 2025.02.24
46804 '김영선에 SH사장 약속' 명태균 주장에 오세훈 측 "공상소설" new 랭크뉴스 2025.02.24
46803 체포된 ‘캡틴 아메리카 복장’ 尹 지지자… 경찰 “美 국적 아냐, 육군 제대” new 랭크뉴스 2025.02.24
46802 트럼프 관세 위협에 한국GM 또 '철수설' new 랭크뉴스 2025.02.24
46801 中, 신종 코로나바이러스 공포감 퍼져…질병청 “인체 감염성 낮아” new 랭크뉴스 2025.02.24
46800 김경수 "탄핵연대, 국정운영도 함께 해야"‥'한국형 연정' 거듭 제안 new 랭크뉴스 2025.02.24
46799 라면 1개 외상 달라던 청년…취업 후 슈퍼 사장에 20만원 봉투 new 랭크뉴스 2025.02.24
46798 홍준표 "대선 열리면 시장 사퇴…마지막 도전에 뒷배 놓을 수 없다" new 랭크뉴스 2025.02.24