티스토리 뷰

리퐅

AI ASIC 칩

Blasher해승 2025. 11. 22. 15:27

 

CNBC 기사 중에 AI 칩들을 잘 정리한 기사가 있어 번역해 보았다.   [https://www.cnbc.com/2025/11/21/nvidia-gpus-google-tpus-aws-trainium-comparing-the-top-ai-chips.html?&qsearchterm=ai%20chip]

 

AI 칩의 카테고리는 다음과 같다.

  • GPU - 코딩이 가능한 범용 프로세서. 엔비디아와 AMD 가 주요 제조. 학습위주. 추론에도 활용.
  • ASIC - 코딩은 안되지만 파라미터를 제어해서 GPU 와 유사한 연산 실행. 주로 추론에 활용. 학습도 가능.
  • FPGA - 칩설계를 변경할 수 있는 ASIC.  칩 가격이 비싸다.
  • Edge AI - NPU 라고도 하며 폰, 태블릿, PC 등 사용자 기기에서 AI 추론 연산 실행. 애플, 인텔 등이 관심.

이 방식들 중 GPU 와 ASIC 이 현재 대부분의 기업에서 사용된다. 

최근의 신경회로망은 너무 거대해져서 학습에 오랜 시간이 필요하다.  사실 GPU 를 다수 연결한 시스템을 쓰지 않으면 어렵다.

최신 엔비디아 시스템은 72개의 블랙웰 칩을 연결해 하나의 랙으로 구성, $300만불에 팔고 있다. 

더보기

학습(Learning)과 추론(Inference)의 차이는 ?

 

모든 GPU나 ASIC, NPU 들은 DNN을 고속으로 처리하는데 특화된 장치들이다.

 

예를들어  Yi = W1X1 + W2X2 + W3X3 + ....  같은 계산을 엄청난 규모로 반복실행하는데, 여기서 W 벡터를 결정하는 과정을 학습, 

학습에 결정된 W 를 이용해 Y를 계산하는 과정을 추론 이라 한다. 

 X가 입력, Y가 출력인데 벡터차원이 수천 ~ 수백만에 이른다.

 

학습에서는 입력 X 와 알려진 출력 Y 를 이용해 W 를 구한다. W 값을 조금씩 변경하면서 수천만회 반복하는 과정을 거치므로 학습을 완료하기까지 몇일에서 수개월이 소요된다.

 

최근의 대규모언어모델(LLM)에서는 W 벡터의 총갯수가 억단위다. 

Transformer 라 불리는 기본 모델은 10년 전에는 W 파라미터의 총수가 수백만개 정도였지만  LLM 이 나오면서 억단위로 늘어났다.

반면 소규모언어모델 (SLM) 이나 최근의 중국 모델은 2-3천만개의  작은 모델을 사용하여 좋은 성능을 내는 경우도 있다. 

 

추론 연산은 1회의 모델 계산으로 끝나므로 연산량이 학습보다는 훨씬 작지만, 최근의 언어처리에서는 정확도를 높이기 위해긴 문장을 짧게 나눠 처리하고 오류를 검증하는 방식을 취하므로 초기에 비해 100배 이상의 추론 연산이 필요하게 되었다. 

 

ASICs for custom cloud AI

GPU가 너무 비싸고 전기를 많이 쓰고 발열이 심해 나온 대안이 ASIC이다.  챗봇에서 추론에 주로 이용된다.

 

학습은 무겁지만  일단  W 벡터가 결정되면 자주 실행하지 않는다.

반면 추론은 수억명의 사용자를 대상으로 한 서비스이므로 보다 가볍고 빠르면서 값이 싸야 한다.

GPU 를 써도 가능하지만 그 대안으로 클라우드 사업자들이 비용절감을 위해 들고 나온 것이 ASIC 기반 칩이다.

 

더보기

(CNBC) 대규모 언어 모델의 초기 호황기에는 GPU에 대한 학습이 핵심이었지만, 모델이 성숙함에 따라 추론이 더욱 중요해지고 있습니다. 추론은 더 구체적인 작업을 위해 프로그래밍된 덜 강력한 칩에서 이루어질 수 있습니다. 바로 여기서 ASIC이 등장합니다.

GPU는 다양한 AI 워크로드에 대해 다양한 종류의 병렬 연산을 수행할 수 있는 스위스군용 나이프와 비슷하지만, ASIC은 단일목적 도구와 같습니다. 매우 효율적이고 빠르지만 한 가지 유형의 작업에 대해 정확한 연산을 수행하도록 고정되어 있습니다.

 

"칩 전쟁"의 저자 크리스 밀러는 "(ASIC은) 일단 실리콘에 새겨지면 바꿀 수 없으므로 유연성 측면에서 단점이 있습니다."라고 말합니다

Nvidia의 GPU는 많은 AI 회사에서 채택할 수 있을 만큼 유연하지만, 가격이 최대 4만 달러에 달해 구하기 어려울 수 있습니다. 하지만 Miller에 따르면 맞춤형 ASIC을 설계하는 데는 수천만 달러부터 시작하는 훨씬 더 높은 초기 선불 비용이 들기 때문에 스타트업은 GPU에 의존합니다.

분석가들은 자금력 있는 대형 클라우드 사업자의 경우 맞춤형 ASIC가 장기적으로 유리하다고 말합니다.

"그들은 자신들이 구축하는 워크로드를 조금 더 통제하고 싶어합니다."라고 뉴섬은 말합니다. "동시에 용량도 필요하기 때문에 엔비디아, AMD와  긴밀히 협력하고자 할 것입니다. 이런 욕구는 상충적입니다."

 

1. 구글 TPU

AI 가속기로서 ASCI 을 처음 만든 하이퍼스케일러는 구글(알파벳)이다.

2015년에 첫 TPU (tensor processing unit) 을 만든 이후, 2025년 11월에 7세대가 나왔다. 

그동안 구글은 TPU를 내부에서만 활용했으나 최근에 AI 스타트업인 앤스로픽에 임대했다. 앤스로픽은 100만개의 TPU 로 클로드 LLM의 학습에 이용할 것이라고 한다. 

 

2. 아마존 Trainum

2015년 이스라엘 스타트업인 안나푸르나랩을 인수하여, 2018년에 인퍼런시아, 2022년에 트레이넘을 발표했다.

아마존 측의 주장에 의하면 트레이넘은 타사의 ASIC에 비해 30-40% 성능/가격비를 개선했다고 한다.

인디애나에 잇는 최대 규모의 아마존 데이타센터에서는 앤스로픽이 50만개의 트레이넘 칩으로  모델을 학습시키고 있다고 했다. (2025년 10월)

 

3. 메타

2023년에 브로드컴의 지원을 받아 자체 추론 및 학습 가속기를 발표

 

4. 마이크로소프트

Maia100 칩을 동부지역 데이타센터에 설치 중

 

5. 기타

퀄컴 A1200, 인텔 가우디,  테슬라 AI5 칩등이 있다.

스타트업 중 Cerebras, Groq 등도 칩을 만들고 있다.

중국의 화웨이, 바이트댄스, 알리바바 등이 칩을 만드는 중.