
인더뉴스 권용희 기자ㅣ업스테이지(대표 김성훈)는 한국어 데이터 부족 문제 해결과 함께 데이터 제공자와 모델 제작하는 회사가 상생하는 생태계 확립을 위해 '1T 클럽'을 발족한다고 14일 밝혔습니다.
1T 클럽(1조 토큰 클럽)은 고성능 거대 언어 모델(LLM) 개발을 위해 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터에 기여할 수 있는 파트너사로 구성됩니다.
회사는 한국 문화와 정서를 담아낼 수 있는 거대언어모델을 개발하고 생성 인공지능 애플리케이션에 활용한다는 방침입니다.
업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 협의를 진행 중이라고 밝혔습니다.
업스테이지는 데이터 제공량에 비례해 LLM 응용프로그램 인터페이스(API) 사용료를 할인하고, 수익 일부를 파트너사에게 지급합니다.
파트너사는 기여 토큰 수에 비례해 업스테이지 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있습니다. API 사업으로 수익을 창출할 경우, 업스테이지는 그 중 일부를 파트너사에게 공유하겠다는 방침입니다.
업스테이지는 인공지능이 데이터를 자동으로 수집·분류·저장하는 '크롤링'으로 저작권 문제를 최소화한다는 계획입니다. 또한 파트너사가 제공하는 데이터를 한글 프리트레이닝 학습 용도로만 사용하고 원문 추출은 불가능하도록 운용한다는 방침입니다. 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체적인 탈옥방지 기술도 적용합니다.
업스테이지는 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM의 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획입니다.
'1T 클럽'에 관심 있는 기업·기관은 업스테이지 홈페이지에서 신청하면 됩니다.
업스테이지의 김성훈 대표는 "국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했습니다.