●On-device AI와 NPU
●On-device AI와 NPU
t.me/triple_stock
On-device AI의 핵심은 AI의 확산을 의미하며 디바이스와 서비스가 연결된다는 의미가 있습니다. 그리고 AI의 본격적인 확산에는 학습 영역만큼이나 추론 영역의 시장이 더욱 커질 것이라는 점을 의미합니다. AI 가속기의 매출은 Gatner에서 전망하길 2023년은 학습 영역에서 60억달러, 추론 영역에서 20억달러로 차이가 크게 났지만 2027년이 되면 추론 영역이 학습 영역의 매출을 추월할 것으로 보고 있습니다. 엣지 디바이스의 수요가 생각보다 성장한다면 추월하는 시점은 더욱 앞당겨질 수 있습니다.
현재와 같은 AI 산업이 본격적으로 확산되는 초기의 상황에서는 범용의 GPGPU가 학습을 하는데 유리한 측면이 있습니다. AI서버의 클라우드 기능의 활용을 특정한 산업이나 분야에 한정 짓지 않고 모두 수용할 수 있기 때문입니다. 하지만 이제 본격적으로 AI가 확산되는 소위 밸류체인이 확장되는 사이클을 경험하고 있는 지금에는 학습 영역에서도 GPGPU와 같은 범용 가속기가 무조건 유리한 상황은 아닙니다. 추론 영역에서는 저전력-고성능의 Trade-off 관계에서 최적점을 찾을 수 있는 가속기가 필요한데 이때 NPU가 유리한 시점이 오게 됩니다. NPU는 특정 연산을 가속하는 역할을 하는데, GPU가 화면상의 그래픽 값들을 빠르게 연산하기 위해 만들어진 칩이라면 NPU는 인공신경망을 이용한 연산을 빠르게 하기 위해 만들어진 칩입니다. 즉, NPU는 범용의 GPU에서 목적적합한 꼭 필요한 기능만 남겨놓고 불필요한 기능을 모두 제거해 인공지능 연산에 최적화된 기능만 집약한 칩인 것이죠.
삼성전자는 On-device AI의 정의를 클라우드 기반이 아닌 엣지 디바이스 단에서 인터넷 연결없이 AI 작업을 수행하는 것이라고 설명합니다. 기존의 AI는 데이터의 학습과 추론 모두 데이터 센터에서 처리했다면, On-device AI는 궁극적으로 데이터의 학습과 추론 모두 디바이스 내에서 처리하길 원하는 것이죠. 물론 초기에는 엣지 디바이스에서 일정 수준의 데이터의 학습과 추론 정도만 담당하고 대부분은 클라우드 데이터 센터와 통신하면서 하이브리드 AI 형태로 진행될 것입니다.
On-device AI가 중요한 이유는 1) 효율성 2) 경제성 3) 보안성의 3가지로 정리해볼 수 있습니다. 모바일, PC, XR, 자동차, 로봇 등의 소비자 엔드 단의 디바이스에 AI 기능을 탑재하는 시대가 되면, 엣지 디바이스 간의 속도 저하와 네트워크 속도 저하를 불러오게 될 것입니다. 엣지 디바이스에 AI 가속기를 장착하면 디바이스에서 일정 수준의 AI 연산처리가 가능하기 때문에 모든 연산을 AI서버와의 통신에 의존할 필요가 없어 효율성이 높아집니다. 반도체의 PIM(Process In Memory)에 비교해보면, 데이터의 병목을 해결하기 위해 일정량의 연산은 메모리에서 처리해서 로직 반도체로 보내주는 역할을 생각해보면 됩니다. NPU의 구동 방식은 온칩 메모리 방식인데, 메모리가 NPU 칩 내부에 통합되어 있는 형태입니다. AI서버에서 GPGPU와 HBM을 인터포저 위에 연결시킨 것을 NPU는 자체 칩 안에 메모리가 들어가는 구조가 되죠. 그러면 데이터 전송 속도가 높아지고 전력 소비도 낮출 수 있으며 공간활용에도 유리해서 On-device AI로 좀 더 적합한 구조가 됩니다.
갈수록 더욱 고도의 AI 기능을 탑재할 것이고 AI 모델은 무거워질텐데, 여기에 NPU의 성능을 높이면서 경제성을 달성하는 방향으로 나아갈 것입니다. 최근 엔비디아의 GPGPU 가격과 HBM 가격이 매우 높은 상황에서 AI서버에 투자하는 비용이 큰 부담이 되고 있습니다. 소비자의 엔드 디바이스는 가격 대비 성능이 무엇보다 중요하기 때문에 NPU로 경제성을 달성하는게 중요합니다. NPU의 성능은 충분히 올라온 상황입니다. 퀄컴은 2024년부터 '스냅드래곤8 Gen3' 칩에 최대 100억개의 파라미터를 지원하는 NPU를 탑재한다고 발표했는데, Gen2 대비 100% 가까운 성능 향상을 NPU를 통해서 보인 것입니다. 물론, 파라미터가 100억개라고 하는 점은 ChatGPT3가 1750억개였던 점과 비교하면 초경량화된 모델을 지원하는 것인데, 이 정도 성능이 HW에 어느 정도로 구현되는지를 봐야할 것이고, 이게 소비자들의 구매 의사결정에 어느 정도 영향을 미치게 될지를 봐야할 것입니다. 그래서 아직은 On-device AI를 통해 디바이스 수요(Q)의 개선을 기대하기에는 이른 시점입니다.
NPU의 수혜는 On-device가 아니더라도 기업들마다 원하는 수준의 커스터마이징된 AI서버를 구축한다면 GPGPU보다 NPU의 수요가 올라올 수 있는데, 운영을 하는 관점에서 클라우드센터에 서버 임대료를 지급하는 것보다 자체 AI서버를 구축하는게 경제성이 크게 유리해질 경우에 NPU의 AI서버향 시장도 크게 성장할 수 있습니다.