검색창 열기 인더뉴스 부·울·경

ICT 정보통신

카카오, ‘카나나’ 언어모델 구축 완료…경량모델 오픈소스 공개

URL복사

Thursday, February 27, 2025, 15:02:32

초거대 언어모델 개발 완료로 전 라인업 구축…연구 성과 공개
"라마, 젬마 등 글로벌 AI 모델과 견주는 언어모델…학습비용 50%절감"

 

인더뉴스 이종현 기자ㅣ카카오[035720]는 올해 출시 예정인 AI 서비스 ‘카나나(Kanana)’ 언어모델의 연구 성과를 담은 테크니컬 리포트를 ‘아카이브(ArXiv)’에 공개했다고 27일 밝혔습니다. 

 

이와 함께 경량 언어모델인 ‘카나나 나노 2.1B’ 모델을 오픈소스로 깃허브(GitHub)에 배포했습니다.

 

테크니컬 리포트는 매개변수와 학습 방법, 학습 데이터 등 세부 사항을 담아낸 AI 논문입니다.

 

카카오는 이번 리포트에 카나나 언어모델 전체의 사전, 사후 트레이닝 전 과정을 자세히 담았습니다. 카나나 모델의 구조, 학습 전략, 글로벌 벤치마크에서의 성과도 확인할 수 있습니다.

 

카카오는 초거대 언어모델 ‘카나나 플래그’가 지난해 말 학습을 완료, 카나나 언어모델의 전체 라인 업(플래그, 에센스, 나노)을 모두 구축하게 됐습니다.

 

카나나 플래그는 글로벌 최고 수준의 한국어·영어 성능을 달성한 모델로 한국어 성능을 평가하는 ‘LogicKor’, ‘KMMLU’ 벤치마크에서 타 모델을 압도하는 처리 능력을 입증했다고 회사 측은 설명했습니다. 

 

또한, 학습 자원 최적화를 통해 유사 사이즈의 모델 대비 50% 이상 비용을 절감하며 SOTA(State-of-the-Art) 수준의 효율성과 성능을 동시에 구현했습니다.

 

 

카카오는 대규모 언어모델의 학습 효율을 높이기 위해 ▲Staged pre-training ▲Pruning(모델 구성 요소를 가지치기해 중요 요소만 남기는 기법) ▲Distillation(큰 모델의 지식을 더 작은 모델로 전달하는 증류 기법) ▲DUS(Depth Upscaling, 깊이 업스케일링) 등 학습 기법을 적용했습니다. 

 

이를 통해 다양한 사이즈의 고성능 모델을 효율적으로 개발, 글로벌 유사 크기 모델 대비 절반 이하의 학습 비용을 실현했습니다.

 

카카오는 향후 카나나 모델에 강화 학습과 연속 학습 기반의 최신 기술을 접목해 추론, 수학,코딩 능력을 강화하고 정렬 기술을 고도화해 사용자 요청의 수행 정확도를 높일 계획입니다. 

 

이를 통해 음성, 이미지, 영상 등 다양한 형태로 소통 가능하도록 모델 고도화를 지속할 예정입니다.

 

한편, 이날 오픈소스로 공개한 ‘카나나 나노 2.1B’은 온디바이스 환경에서도 활용 가능한 고성능의 경량 모델로, 비교적 작은 규모임에도 유사한 크기의 글로벌 모델에 견줄 만한 성능을 보인다고 회사 측은 설명했습니다.

 

'카나나 Nano 2.1B'의 베이스 모델과 인스트럭트 모델, 임베딩 모델이 오픈소스 커뮤니티인 깃허브를 통해 제공됩니다.

 

'카나나 Nano 2.1B'는 연구자와 개발자가 활용하기 적절한 크기의 모델이자 온디바이스 환경에서도 활용 가능한 고성능의 경량 모델입니다. 

 

지난달 카카오 공식 테크블로그를 통해 공개한 바와 같이 한국어와 영어 처리 능력에서 우수한 결과를 보여줍니다.

 

카카오는 이번 오픈소스 공개를 통해 AI 기술의 접근성을 높이고, 연구자와 개발자들이 다양하게 응용할 수 있도록 업데이트를 지속할 계획입니다.

 

김병학 카카오 카나나 성과리더는 “모델 최적화와 경량화 기술을 바탕으로 라마, 젬마 등 글로벌 AI 모델과 견줄 수 있는 고성능의 자체 언어모델 라인업을 효율적으로 확보하게 됐고, 이번 오픈소스 공개를 통해 국내 AI 생태계 활성화에 기여할 수 있을 것으로 기대한다”며 “효율과 성능 중심의 실용적이고 안전한 AI 모델을 개발해 AI 경쟁력을 강화할 것이다”고 말했습니다. 

English(中文·日本語) news is the result of applying Google Translate. <iN THE NEWS> is not responsible for the content of English(中文·日本語) news.

배너

이종현 기자 flopig2001@inthenews.co.kr

배너

삼성전자, ‘AI 포럼 2025’ 개최…글로벌 석학과 미래 AI 전략 논의

삼성전자, ‘AI 포럼 2025’ 개최…글로벌 석학과 미래 AI 전략 논의

2025.09.15 13:55:11

인더뉴스 이종현 기자ㅣ삼성전자[005930]가 15일부터 16일까지 양일간 '삼성 AI 포럼 2025'를 개최한다고 15일 밝혔습니다. 올해로 9회째를 맞는 '삼성 AI 포럼'은 매년 학계와 업계 전문가들이 한자리에 모여 AI 분야의 최신 연구 성과를 공유하고, 향후 연구 방향을 모색하는 기술 교류의 장입니다. 이번 포럼에는 ▲딥러닝 분야의 세계적 석학인 요슈아 벤지오 캐나다 몬트리올대 교수 ▲언어모델과 AI 에이전트 연구의 권위자인 조셉 곤잘레스 UC 버클리 교수 등 글로벌 AI 전문가들이 기조 강연에 나섭니다. 전영현 삼성전자 대표이사 부회장은 개회사를 통해 "삼성전자는 다양한 업무영역에 AI 기술을 적용해 언제 어디서나 쉽고 빠르게 AI를 활용할 수 있는 기반 기술을 개발하고 있다"라며 "올해 삼성 AI 포럼은 산업계와 학계를 대표하는 전문가들을 모시고 AI가 사회와 산업을 어떻게 변화시키는지 논의하고 함께 지혜를 나누는 의미 있는 시간이 될 것"이라고 말했습니다. 삼성전자 DS부문이 주관하는 1일차 포럼은 경기도 용인에 위치한 삼성전자 The UniverSE에서 진행됐습니다. 이날 포럼에는 사전 초청자 200여명이 참석해 '반도체 산업의 버티컬 AI 전략과 비전'을 주제로 논의했습니다. 기조 강연에 나선 벤지오 캐나다 몬트리올대 교수는 기존 AI 모델에서 발생할 수 있는 '인간 통제 회피', '악의적 사용' 등 잠재적 위험 요소를 설명하고 안전장치 역할을 할 새로운 모델 '과학자 AI'를 소개했습니다. 그는 "과학자 AI 모델은 인간을 모방하거나 기쁘게 하려는 의도 없이 검증된 사실과 데이터를 근거로 정직한 답변을 제공한다"라며 "안전성과 과학적 발견의 가속화 측면에서 과학자 AI 기술이 중요하다"라고 강조했습니다. 반도체 설계 자동화 회사인 지멘스 EDA의 아밋 굽타 부사장은 'AI 기반 전자 설계의 미래'를 주제로 강연을 진행했습니다. 그는 "반도체 전자 설계 자동화 도구에 AI를 통합하는 것이 무엇보다 중요하다"라며 "특히 AI의 잠재력을 완전하게 활용하기 위해서는 전체 워크플로우에서 작동하는 엔드투엔드(End-to-End) 시스템이 필요하다"라고 설명했습니다. 송용호 삼성전자 DS부문 AI센터장 부사장과 강석형 포항공대(POSTECH) 교수, 문일철 한국과학기술원(KAIST) 교수가 진행한 기술 세션에서는 반도체 설계 및 제조 분야의 최신 AI 응용 연구 성과와 미래 전망이 논의됐습니다. 송 부사장은 "AI는 칩 설계나 소프트웨어 개발에 필수적인 도구가 됐으며 제조 분야에서도 제조 복잡성의 기술적 한계를 극복하는 데 AI가 크게 기여할 것"이라고 강조했습니다. 한편 이날 진행된 '삼성 AI 연구자상' 시상에는 ▲니콜라스 파프르노 캐나다 토론토대 교수 ▲로즈 유 UC 샌디에이고 교수 ▲르렐 핀토 뉴욕대 교수 등 3명이 선정됐으며 수상자들의 현장 강연도 진행됐습니다. 16일에 진행하는 2일차 포럼은 삼성전자 DX부문이 주관하며 '생성형 AI를 넘어, 에이전틱 AI로'를 주제로 온라인 운영됩니다. 전경훈 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장 사장은 "생성형 AI는 이미 일상과 산업 전반에서 필수 도구로 자리 잡았다"라며 "삼성전자는 본격화되는 에이전틱 AI 시대에 맞춰 사용자에게 실질적으로 도움이 되는 AI 기술을 준비할 것"이라고 말했습니다. 둘째 날 기조 강연에는 ▲언어모델과 AI 에이전트 연구의 권위자인 조셉 곤잘레스 UC 버클리 교수 ▲AI의 자율적 계획 수립과 의사결정 분야 전문가 수바라오 캄밤파티 애리조나 주립대 교수 ▲확산 방식 언어모델(DLM) 기술을 공개한 스타트업 인셉션의 공동창립자 겸 스탠퍼드대 교수 스테파노 에르몬 등이 나섭니다. UC 버클리 곤잘레스 교수는 거대언어모델(LLM) 기반의 에이전트 능력 고도화 연구 사례를 발표합니다. 또 사용자와 에이전트 간 상호작용 사이에 발생하는 공백 시간을 활용해 에이전트가 추론·학습·계획을 수행하는 '슬립타임 컴퓨트' 패러다임도 소개합니다. 캄밤파티 애리조나 주립대 교수는 기존 거대언어모델의 한계를 보완하기 위한 '대규모 추론 모델(LRM)' 연구 결과를 공유합니다. 그는 언어 모델에서 해결돼야 할 주요 과제로 ▲정확성 보장 ▲상황 적응형 계산 ▲중간 추론 해석 제공 등을 제시할 예정입니다. 에르몬 스탠퍼드대 교수는 이미지·영상·오디오 생성에 활용되던 확산 모델을 언어에 적용한 '확산 언어 모델(DLM)'을 발표합니다. 이 기술은 순차적 텍스트 생성 방식의 한계를 극복하고 보다 효율적인 언어 모델의 패러다임을 제시할 전망입니다. 기술 세션에서는 삼성리서치 연구원들이 ▲카메라 색온도 자동 조절 AI 기술 ▲지식 증류를 활용한 효율적인 거대언어모델 학습 기법과 적용 사례 ▲스마트폰, TV 등 전자제품에 거대언어모델을 탑재하기 위한 온디바이스 기술 ▲실제 목소리로 더빙 음성을 자동 생성하는 AI 기술 등 최신 연구개발 성과를 공유합니다. 또 ▲멀티 에이전트 시스템으로 다양한 보고서를 분석하고 자동 생성하는 '딥 다이브' 기술 ▲다양한 형식의 문서를 거대언어모델이 이해할 수 있는 구조로 자동 변환시켜 주는 '문서 AI' 기술 ▲제품에 탑재되는 생성형 AI 모델들의 개발 주기를 단축하는 '온디바이스 AI 스튜디오' 등 사내 생산성 향상을 위한 기술과 적용 사례도 공개됩니다. 2일차 '삼성 AI 포럼 2025'는 삼성전자 개발자 유튜브 채널에서 시청 가능합니다.




배너