과학기술정보통신부(장관 이종호, 이하 ‘과기정통부’)는 KAIST(한국과학기술원) PIM반도체 연구센터와 인공지능반도체 대학원 유회준 교수 연구팀이 400밀리와트 초저전력을 소모하면서 0.4초 초고속으로 거대 언어 모델을 처리할 수 있는 인공지능 반도체인 '상보형-트랜스포머(Complementary-Transformer)’를 삼성 28나노 공정을 통해 세계 최초로 개발했다고 밝혔다.
상보형 트랜스포머는 인간 뇌의 구조와 기능을 모방한 뉴로모픽 컴퓨팅 시스템이다. ‘스파이킹 뉴럴 네트워크(SNN·뇌의 뉴런이 스파이크라는 시간에 따른 신호를 사용해 정보를 처리하는 방식)’와 ‘심층 인공신경망(DNN·시각적 데이터 처리에 사용되는 딥러닝 모델)’을 사용해 트랜스포머 기능을 구현한다. 트랜스포머는 문장의 단어와 같은 데이터 내부 관계를 추적해 맥락과 의미를 학습하는 신경망 기술이다.
그동안 GPT와 같은 거대언어모델을 구현하려면 다량의 GPU와 250와트의 전력이 필요했다. 하지만 KAIST 연구진은 4.5㎜ x 4.5㎜의 작은 AI 반도체 칩 상에서 초저전력으로 구현하는 데 성공했다. 김상엽 박사가 제 1저자로 참여한 이번 연구는 지난 2월 19일부터 23일까지 미 샌프란시스코에서 개최된 국제고체회로설계학회(ISSCC)에서 발표 및 시연되었다.
▲ AI 반도체 발전 방향. 과거 범용 컴퓨팅에 주로 사용되던 CPU에서 AI와 같은 고도의 데이터 처리가 필요한 작업을 위해 GPU가 중심이 됐다. (과기부 제공)
특히 연구팀은 뉴로모픽 컴퓨팅의 실용적인 확장 가능성에 중점을 두고 문장 생성, 번역, 요약 등과 같은 고도의 언어 처리 작업을 성공적으로 수행할 수 있는지를 연구했다. 여기서 가장 큰 관건은 뉴로모픽 네트워크에서 높은 정확도를 달성하는 것이었다.
일반적으로 뉴로모픽 시스템은 에너지 효율은 높지만 학습 알고리즘의 한계로 인해 복잡한 작업을 수행할 때 정확도가 떨어지는 경향이 있었으며, 거대 언어 모델과 같이 높은 정밀도와 성능이 요구되는 작업에서 큰 장애 요소로 작용했다.
이러한 문제를 해결하기 위해 연구팀은 독창적인 DNN-to-SNN 등가변환기법을 개발하여 적용하였다. 이는 기존의 심층 인공 신경망(DNN) 구조를 스파이킹 뉴럴 네트워크(SNN)로 변환하는 방법의 정확도를 더욱 끌어올리기 위해 스파이크의 발생 문턱값을 정밀 제어하는 방법이다. 이를 통해 연구팀은 스파이킹 뉴럴 네트워크(SNN)의 에너지 효율성을 유지하면서도 심층 인공 신경망(DNN) 수준의 정확도를 달성할 수 있었다고 밝혔다.
연구진의 기술을 적용하면 거대언어모델의 파라미터를 효과적으로 줄일 수 있다. GPT-2 거대모델의 경우 7억800만개의 파라미터를 사용하는 걸 1억9100만개로 줄였다. 번역을 위해 사용되는 ‘T5′ 모델에서는 4억200만개의 파라미터를 7600만개로 줄였다.
상보형 트랜스포머는 엔비디아의 GPU(A 100) 대비 전력 소모는 625배 줄이고, 언어 생성에는 0.4초의 고속 동작이 가능했다.
▲ ISSCC (국제고체회로설계학회) 발표하는 김상엽 박사
과학기술정보통신부는 과기정통부 전영수 정보통신산업정책관은 “이번 연구성과는 인공지능반도체가 NPU와 PIM을 넘어 뉴로모픽 컴퓨팅으로 발전할 수 있는 가능성을 실제로 확인했다는 것에 큰 의미가 있다”라고 밝혔다.
글. 우정남 기자 insight1592@gmail.com