엔비디아 'NVFP4' 혁신: 블랙웰 울트라로 AI 훈련·추론 속도 한계 돌파
엔비디아 'NVFP4' 혁신: 블랙웰 울트라로 AI 훈련·추론 속도 한계 돌파
최근 AI 모델이 기하급수적으로 커지면서 컴퓨팅 전력과 성능 효율화가 업계의 최대 화두로 떠오르고 있습니다.
이에 엔비디아가 초저정밀도 수치 연산 포맷인 'NVFP4'를 전면에 내세우며, 정확도를 유지하면서도 AI 훈련 및 추론 성능을 비약적으로 끌어올리는 혁신적인 솔루션을 발표했습니다.
블랙웰 울트라 GPU와 NVFP4의 만남, 처리량 3배 향상
엔비디아의 최신 칩인 블랙웰 울트라(Ultra) GPU는 NVFP4 정밀도를 기반으로 최대 15페타플롭스의 엄청난 처리량을 제공합니다.
이는 동일한 GPU 환경에서 기존 FP8 포맷을 사용했을 때보다 무려 3배에 달하는 압도적인 성능입니다.
이러한 수치는 단순한 이론에 그치지 않습니다. 실제로 6,710억 개의 매개변수를 가진 거대 모델 '딥시크-R1(DeepSeek-R1)'에 NVFP4를 적용한 결과, 토큰 처리량이 눈에 띄게 증가하며 전반적인 AI 응답 속도와 사용자 경험이 대폭 개선되는 것으로 나타났습니다.
라마 3.1 훈련 64분 컷, MLPerf 벤치마크로 입증된 정확도
성능을 높이면서도 품질을 잃지 않는 것이 NVFP4의 가장 큰 강점입니다.엔비디아는 최근 512개의 블랙웰 울트라 GPU로 구성된 시스템을 통해 무거운 '라마 3.1 405B' 모델의 사전 훈련을 단 64.6분 만에 완료하는 기록을 세웠습니다.
특히 업계 표준인 최신 MLPerf 벤치마크 테스트에서 까다로운 정확도 요건을 모두 충족하며 성공적으로 결과를 제출했습니다. 초저정밀도 연산을 사용하면 AI가 멍청해질 수 있다는 일각의 우려를 불식시키고, 훈련과 추론 두 마리 토끼를 모두 잡은 셈입니다.
광범위한 소프트웨어 생태계 지원과 파트너십 확대
새로운 포맷이 시장에 빠르게 안착할 수 있도록 엔비디아는 '모델 옵티마이저'와 'LLM 컴프레서' 같은 다양한 라이브러리를 지원해 개발자들이 손쉽게 NVFP4로 전환할 수 있게 돕고 있습니다.이미 생태계 파트너들의 성과도 가시화되고 있습니다. 블랙 포레스트 랩스는 단일 B200 칩에서 6.3배의 속도 향상을 이뤄내며 지연 시간을 획기적으로 줄였습니다.
래디컬 뉴메릭스는 과학 분야의 복잡한 월드 모델 확장에 NVFP4를 도입해 긍정적인 평가를 내렸습니다. NVFP4가 언어 모델을 넘어 멀티모달과 과학 연산까지 AI 산업 전반의 표준으로 자리 잡을 날이 머지않아 보입니다.