DeepSeek AI

중국발 AI 모델 업계 게임 체인저 '딥시크'

중국 AI 스타트업 ‘딥시크(DeepSeek)’가 AI 모델 업계를 뒤흔들고 있어요. 일반적으로 고성능 AI 개발에는 막대한 자원이 필수적이지만, 딥시크는 극히 제한된 자원만으로도 오픈AI의 최신 AI 모델에 필적하는 수준의 추론 AI를 개발했다고 밝혔기 때문입니다. 오픈AI가 수십억 달러를 투자해 모델을 개발한 것과 달리, 딥시크는 불과 600만 달러 미만의 비용으로 단 두 달 만에 구현했다고 주장하고 있습니다.

딥시크를 만든 남자, 량원평
DeepSeek Idea

딥시크는 2023년 량원펑(Liang Wenfeng)에 의해 설립된 중국의 AI 스타트업입니다. 량원펑은 공학, 기술, 컴퓨터 과학 분야에서 뛰어난 중국 명문 저장대학교(Zhejiang University)에서 전자정보공학과 컴퓨터과학을 전공한 것으로 알려져 있습니다. 하지만, 이 외에는 AI 업계에서 알려져 있던 인물은 아니었는데요. 그는 대학 졸업 뒤 수학 통계 모델과 컴퓨터 알고리즘을 이용한 투자 기법인 ‘퀀트 투자’를 연구했고, 2015년 대학 동창 2명과 함께 헤지펀드 회사 ‘하이플라이어(환팡량화)’를 세웠습니다. 하이플라이어는 약 13억 달러 이상을 조달한 중국 최초의 헤지펀드가 되었고요.

량원펑이 인공지능 분야에 본격적으로 뛰어든 시점은 2019년입니다. 투자 기법 정교화를 위해 하이플라이어 내에 인공지능 전담 부서를 만들었죠. 그의 팀은 엔비디아의 H800(H800은 미국의 대중 수출 규제를 준수하기 위해 특수 제작된 고성능 GPU) 칩을 활용해 주식 거래에서 꾸준한 수익을 창출했다고 해요. 이는 미국의 중국 AI 규제가 기대만큼 효과적이지 않았다는 의미가 됩니다. 오히려 낮은 성능의 칩으로 고성능 AI를 개발하도록 동기를 만들어줬다는 추론도 가능하네요.

량원펑은 2023년 5월 하이플라이어의 AI 조직을 데리고 분사해 딥시크를 창업했습니다. 딥시크는 2,000개의 고급 칩과 수천 개의 저사양 칩을 활용해 AI 모델 ‘R1’을 훈련했다고 주장합니다. (주요 AI 모델들은 약 1만 6,000개의 고급 칩을 사용하는 것으로 추정하고 있습니다.) 사용한 칩의 차이가 비용의 차이를 만들었다는 설명인데요. 다만 딥시크가 공개한 수치에 대한 의문이 제기되고 있습니다. MIT 테크놀로지 리뷰는 딥시크가 확보한 GPU가 5만 개에 이를 것으로 추정된다고 보도하며, 실제 사용 규모가 공개된 내용과 다를 가능성이 있다고 시사했습니다.

딥시크의 AI 모델, 무엇이 다른가?

딥시크가 주목받는 이유는 모델 훈련 방식이 오픈AI와 다르기 때문입니다. 딥시크는 주로 강화학습을 활용하는데, 이는 모델이 보상을 받으며 외부 개입 없이 스스로 발전하는 방식입니다. 반면, 오픈AI는 지도학습과 지침 기반 미세조정을 중심으로 모델을 개선해 왔습니다. 두 모델의 접근법 차이가 있죠?

아울러 딥시크는 일반적으로 사용되는 신경 보상 모델보다 성능이 뛰어난 규칙 기반 보상 시스템을 개발했습니다. 보상 엔지니어링은 훈련 중 AI 모델의 학습을 안내하는 인센티브 시스템을 설계하는 프로세스입니다. 또한 복잡한 추론 패턴을 명시적으로 프로그래밍하지 않고 강화학습을 통해 자연스럽게 발전할 수 있도록 했습니다.

딥시크 모델 중 ‘R1’은 영어, 중국어, 코드, 수학에 대한 AI의 능력을 평가하는 다양한 벤치마크 테스트에서 높은 점수를 기록했습니다. 특히 수학 부문 AIME, MATH-500 등에서 높은 pass@1 기록을 보여줬는데요. 오픈AI나 앤트로픽의 경쟁 모델과 비교했을 때 경쟁력이 있다는 평가를 받고 있습니다.

‘딥시크 R1’의 가장 큰 특징은 비용 효율성입니다. 학습에 오픈AI보다 훨씬 적은 수의 GPU를 사용했으며, 약 600만 달러만 모델 개발에 사용했다고 회사 측은 밝히고 있습니다. 이는 오픈AI가 사용한 비용에 수십, 수백분의 1 수준입니다. 이러한 효율성은 주로 Mixture of Experts(MoE) 아키텍처 덕분입니다. 이 아키텍처는 운영 중에 6,710억 개의 파라미터 중 일부만 선택적으로 활성화해 성능 저하 없이 최적의 리소스 활용을 가능케 합니다.

‘딥시크 R1’의 또 다른 특징은 오픈소스라는 점이죠. 오픈AI는 폐쇄적 모델이며, 메타의 라마 시리즈도 완벽한 오픈소스가 아니라는 말을 듣습니다. 반면 ‘딥시크 R1’은 오픈소스 라이선스 중 하나인 ‘MIT’ 라이선스를 채택하고 있습니다. MIT 라이선스는 사용에 거의 제한이 없는 자유로운 라이선스죠.

딥시크, AI 업계를 뒤흔들 도전장?

‘딥시크 R1’ 출시 이후 이 모델이 오픈AI의 ‘o1’을 능가한다는 평가를 받자, 업계는 발칵 뒤집어졌습니다. 우선 중국의 AI 기술력이 미국을 넘어서는 단계에 왔다는 점에서 국제 정·재계를 긴장케 했는데요.

도널드 트럼프 대통령은 “중국 기업 딥시크의 AI 출시는 산업 경쟁에서 앞서나가기 위해 최선을 다해야 한다. 이는 강력한 경종을 울리는 사건이다.”라고 말했습니다. 트럼프 정부는 미국의 AI 경쟁력 확보를 위해 대규모 정부지원금을 쏟아부을 예정입니다.

딥시크의 등장이 AI 업계에 어떤 영향을 미칠지는 아직 분명치 않지만, 지금까지와는 다른 방식으로 AI 개발이 진행될 가능성이 생겼습니다. 지금까지 AI는 투자된 자원과 비례해 성능이 발전해 왔기 때문이죠. 글로벌 빅테크와 빅테크 수준의 투자금을 유치한 스타트업 만이 AI 모델을 개발할 수 있었으나 딥시크의 등장은 지금까지의 공식대로 하지 않아도 된다는 하나의 사례를 보여줬다는 데 의의가 있습니다.

미국의 칩 수출 금지가 중국 AI 업계에 도전 과제이자 기회를 동시에 제공했다고 보는 시각도 있습니다. 마리나 장 시드니 공과대학교 부교수는 “반도체 수출 제한 조치는 중국 기업들이 제한된 자원으로 더 많은 것을 해낼 수 있도록 혁신을 강요했다”고 말했는데요. 미국의 규제가 베이징이 기술 독립을 추진하는 계기가 되었다는 분석도 나옵니다.

딥시크의 신뢰도는?
Deepseek Reliability

앞서 소개했듯 딥시크의 발표를 100% 신뢰할 수 없다는 이야기가 나오고 있어요. 우선 딥시크의 기술적 발표들이 과거에 과장되거나 부정확한 경우가 있었던 것으로 의심받고 있습니다. 딥시크는 600만 달러 이하의 비용으로 ‘R1’을 개발했다고 밝혔는데, 이는 추론 모델인 ‘R1’의 기반이 되는 LLM ‘V3’의 개발 비용이라는 이야기도 나옵니다. ‘V3’을 기반으로 ‘R1’을 만드는데 들어간 컴퓨팅 비용이나 인건비 등 각종 부대 비용은 포함하지 않았다는 지적이죠. 예를 들어 ‘R1’ 수준 검증을 위해 수십만 개의 테스트 케이스가 사용됐는데, 이를 만들고 검증을 진행한 비용은 600만 달러 안에 포함하지 않았을거라는 의견이 있습니다.

딥시크에 대해서는 정보 보호 및 프라이버시 침해, 악용 가능성에 대한 우려도 제기되고 있습니다. 일반적으로 AI 모델은 해킹이나 악의적 사용을 방지하기 위해 다양한 안전장치를 갖추고 있으며, 탈옥 시도를 막기 위한 보안 조치도 적용됩니다. 하지만 딥시크는 이러한 보호 장치가 부족한 것으로 알려졌습니다. 이에 따라 악성코드 제작, 랜섬웨어 개발, 폭탄 제조법 안내 등 부정적인 용도로 악용될 가능성이 크다는 지적이 나오고 있습니다.

딥시크의 운영사가 서구권 국가들과 개인정보 보호법이 다른 중국 기업이라는 점도 문제로 지적되고 있습니다. 딥시크 관련 분쟁이 벌어지면 중국 법원에서 재판을 받아야 하는데요. 이 때문에 딥시크를 거부하는 움직임도 커지고 있죠. 지금까지 이탈리아, 대만, 미국, 일본 등 여러 국가가 딥시크 이용을 금지한다고 발표했습니다.

 

콘텐츠 제공 : 바이라인네트워크(byline.network)

 
 
구독하기 버튼