본문 바로가기
인공지능

샌드 AI의 MAGI1: '물리적 움직임' 구현하는 동영상 모델 출시

by 에디터_가을여행 2025. 4. 28.

안녕하세요. 에디터 가을여행입니다.

오늘은 AI 기술 트렌드 중에서도 특별히 주목받고 있는 중국 스타트업 샌드 AI의 최신 작품, 차세대 오픈소스 동영상 생성 모델 MAGI1에 대해 소개해드리려고 합니다. 이 모델은 단순히 영상을 만들어내는 것을 넘어서, 마치 마법사처럼 프레임 시퀀스를 예측하며 현실적인 움직임을 구현해내는 놀라운 기술이랍니다. 왜 이것을 '마법'이라고 부르는지, 지금부터 자세히 알아볼게요. AI 세계가 점점 더 흥미로워지고 있어요 – 마치 영화 속 SF가 현실이 된 기분이 들지 않나요?

이 포스트에서는 MAGI1의 탄생 배경부터 작동 원리, 성능, 그리고 실제 사용 방법까지 자세히 다룰 예정입니다. AI 기술이 우리 일상을 어떻게 변화시키고 있는지, 그 흥미로운 여정에 함께해 보시죠! 😊

MAGI 대표 샘플 동영상

MAGI1 소개: 동영상 생성의 게임 체인저

MAGI1은 샌드 AI가 최근 공개한 모델로, 자기회귀 방식(autoregressive)으로 프레임 시퀀스를 예측해 영상을 생성하는 '세계 모델(LWM)'의 성격을 띠고 있습니다. 쉽게 설명하자면, 이 모델은 텍스트 입력을 기반으로 물리적 움직임을 정밀하게 구현해내는 데 탁월한 능력을 보여줍니다.

예를 들어, "강아지가 공을 쫓아가는 장면"이라고 입력하면, 강아지의 자연스러운 움직임과 물리 법칙(예: 중력, 속도)을 반영한 영상이 생성되죠. 기존 AI 모델들이 가끔 '로봇처럼 뻣뻣한' 영상을 만들어내는 데 비해, MAGI1은 더 생생하고 현실적인 콘텐츠를 제공합니다. 마치 디즈니의 숙련된 애니메이터가 AI로 변신한 것 같은 놀라운 결과물을 보여준답니다!

 

DiT 아키텍처의 혁신: 확산과 트랜스포머의 만남

MAGI1의 핵심은 DiT(Diffusion Transformer) 아키텍처에 있습니다. 이 아키텍처는 기존 이미지 생성에 쓰이는 확산 모델(Diffusion)과 언어 모델의 기반인 트랜스포머를 결합한 하이브리드 형태랍니다. 왜 이 조합이 대단할까요? 확산 모델은 노이즈를 제거하며 세밀한 이미지를 만들어내고, 트랜스포머는 텍스트와 이미지 간의 상호작용을 강화하기 때문입니다. 결과적으로, MAGI1은 텍스트를 더 정확하게 이해하고, 그에 맞는 고품질 영상을 생성할 수 있게 되었습니다.

구체적으로, 트랜스포머의 자기회귀적 예측 능력을 활용해 각 이미지를 '패치 단위'로 분할하고, 이를 토큰으로 변환해 처리합니다. 이 과정에서 텍스트와 이미지의 상호작용이 극대화되며, 영상의 품질이 대폭 업그레이드되었죠. 이런 혁신적인 결합이야말로 AI 기술의 미래라고 할 수 있습니다. DiT 아키텍처 덕분에 MAGI1은 이미지투비디오(I2V) 작업에서 탁월한 성능을 발휘하고 있어요.

특징 설명
확산 모델 통합 노이즈 제거를 통해 세밀한 영상 생성
트랜스포머 활용 텍스트-이미지 상호작용 강화, 자기회귀 예측
패치 단위 처리 이미지를 패치로 분할하여 토큰화
이점 높은 영상 품질과 텍스트 이해력, 자연스러운 움직임

 

작동 원리: 프레임 시퀀스와 자기회귀 방식

MAGI1의 작동 방식이 정말 매력적입니다. 이 모델은 전체 영상을 한 번에 생성하지 않고, **24프레임 단위의 고정 청크(chunk)를 하나씩 디노이징(노이즈 제거)**하는 방식으로 진행됩니다. 자기회귀 방식 덕분에, 하나의 청크가 완성되면 다음 청크를 예측하면서 영상을 부드럽게 연결합니다. 게다가, 청크 디노이징이 어느 정도 진행되면 최대 4개 청크를 병렬로 처리할 수 있어서 효율성이 높아진다고 합니다.

이 과정을 재미있게 표현하자면, AI가 영상 생성을 '조각조각 맞추는 퍼즐'처럼 다루는 거예요. 덕분에 시간 일관성이 강화되고, 영상이 더 자연스럽게 흐르게 됩니다. 예를 들어, 자동차가 도로를 달리는 장면에서 속도와 물리적 움직임을 정확히 예측하니, 보는 사람이 "와, 이건 진짜 같아!"라고 감탄할 수 있을 정도랍니다.

적용된 기술들: 학습 효율성과 안정성 강화

샌드 AI는 MAGI1을 만들면서 여러 첨단 기술을 적용했습니다. Block Causal Attention, Parallel Attention Block, QKNorm, GQA, SwiGLU, Softcap Modulation, Sandwich Normalization 등이 그 예입니다. 이 기술들은 학습 효율성을 높이고, 대규모 안정성을 확보하기 위해 설계되었습니다. 특히, '속도 기반 단일 모델' 학습 전략과 '셀프 컨시스턴시(self-consistency) 제약'을 적용해, 다양한 추론 속도에서도 영상 품질이 일관되게 유지된답니다.

이 부분이 재미있는 이유는, AI 모델이 "언제나 믿을 수 있는 친구"처럼 안정적으로 작동하도록 만들었기 때문입니다. 이런 세부 기술들이 모델의 성능을 좌우한다고 할 수 있죠.

기술 이름 역할
Block Causal Attention 주의력을 효율적으로 분배
Parallel Attention Block 병렬 처리 효율성 강화
QKNorm 안정적인 어텐션 계산
Softcap Modulation 과도한 변화를 제어
Sandwich Normalization 안정적인 학습 지원
GQA & SwiGLU 계산 효율성 및 성능 향상

이 기술들 덕분에 MAGI1의 가장 큰 모델은 240억 개의 매개변수를 가지고, 최대 400만 토큰의 컨텍스트를 처리할 수 있게 되었습니다. 상상만 해도 대단하지 않나요?

성능 평가와 비교: 물리 이해력의 압도적 우위

MAGI1의 진짜 매력은 그 성능에 있습니다. 텐센트의 Hailuo i2v-01, HunyuanVideo, 알리바바의 Wan2.1 등 다른 모델과 비교했을 때, 지시문 이해와 물리적 동작 구현에서 최고의 성능을 기록했습니다. 특히, 물리 행동 예측 정확도를 측정하는 PhysicsIQ 벤치마크에서 모든 모델을 압도했죠. 이 덕분에 MAGI1은 단순한 동영상 모델이 아닌, LWM(세계 모델)으로 평가받고 있습니다.

인간 선호도 평가나 물리 이해력 평가를 보면, MAGI1이 얼마나 우수한지 한눈에 알 수 있습니다. 카이푸 리(01.AI 창립자) 같은 전문가들도 칭찬을 아끼지 않았다고 합니다.

하지만 문제는... 일반인이 쉽게 접근하기 어렵다는 점입니다! 최소 4~8개의 엔비디아 H100 GPU가 필요하니, 하드웨어 요구사항이 꽤 높은 편이에요. 그래도, 재미있게 생각해보면 "AI의 VIP 클럽"에 초대받은 기분이라고 할 수 있겠죠? 😂

사용 방법과 접근성: 어떻게 체험할까?

마지막으로, MAGI1을 실제로 사용해보고 싶다면 어떻게 해야 할까요? 현재는 샌드 AI의 플랫폼 Magi Product에서만 체험할 수 있습니다. 소스 코드는 GitHub에서, 모델 파일은 Hugging Face에서 다운로드 가능하니, 개발자 분들은 바로 실험해보세요.

Magi-1 : 최초의 autoregressive 비디오 모델

 

Sand.ai

Sand AI, Advance AI to Benefit Everyone.

sand.ai

하지만, GPU 요구사항 때문에 아직 대중화되기에는 조금 걸림돌이 있는 것이 사실입니다. 앞으로 더 쉽게 접근할 수 있게 되길 바랍니다. 이 모델이 AI의 미래를 보여주는 좋은 예라고 생각합니다. 여러분도 한번 시도해보고, 피드백을 공유해보는 건 어떨까요? AI가 우리 삶을 더 재미있게 만들어주고 있답니다!

MAGI 실제 사용 예시

Prompt : A highly detailed miniature sushi construction site, where tiny sushi chefs are dynamically building a giant piece of nigiri sushi using realistic cranes, forklifts, and scaffolding. Blocks of fresh tuna (maguro) are lifted with cranes and swing slightly due to gravity and tension on the cables. Forklifts smoothly carry stacks of rice grains packed on pallets, with visible bounces and shifts due to weight. Chefs balance on scaffolding, hammering and brushing the tuna slice into perfect shape. One chef signals to the crane operator while another guides the tuna block into place. Rice grains tumble and scatter slightly when moved. Dust particles rise realistically from the ground as vehicles drive by. The entire scene uses soft cinematic lighting with shallow depth of field, showing realistic shadows and reflections.
Use advanced physics simulation: include rope tension, collision physics for the rice grains, object inertia, weight distribution, and dust particle dynamics. Dramatic camera movements: dolly shots, slow-motion crane lifts, dynamic zoom-ins on the chefs' actions. Feel like a playful yet epic sushi-building documentary.

Image to Video 사용방법

  • 영상을 제작할 이미지를 선택합니다. 
  • 이미지를 chatGPT, Gemini, Grok 등을 통해서 다이나막한 영상을 위한 동영상 프롬프트를 제공 받습니다.
  • MAGI -> New Project -> Upload File (이미지 선택)
  • 이미지를 선택하였으면 제공 받은 프롬프트를 입력합니다. Generate 버튼 클릭
  • 생성이 완료되면 동영상을 감상합니다.
위 프롬프트를 입력해서 이미지를 동영상으로 변환한 샘플 영상

영상 생성 작업을 기다리던 4분이라는 시간, 하나둘씩 완성되어 가는 모습을 상상했는데, 실상 영상 자체는 일부 동작 표현에서 뭉개지거나 번짐 현상이 있었습니다. 이제 시작하는 스타트업이니 기대해 볼만 한것 같습니다. 다소 아쉽습니다.

 

 

마치면서...

오늘 포스트는 여기까지입니다. MAGI1처럼 혁신적인 기술이 나올 때마다, AI 세계는 정말 흥미진진해지는 것 같아요. 이러한 기술 발전이 우리의 창작과 표현의 방식을 어떻게 변화시킬지 기대됩니다. 앞으로도 AI 트렌드를 재미있게 전달해드릴게요!

댓글