검색창 열기 인더뉴스 부·울·경

AI 인공지능

삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 공개

URL복사

Thursday, September 25, 2025, 09:09:35

10개 카테고리, 46개 업무, 2485개 세분화 항목으로 효율성 평가
실제 업무 상황 반영·다국어 지원으로 기존 벤치마크와 차별화

 

인더뉴스 이종현 기자ㅣ삼성전자[005930]가 자체 개발한 AI 업무 생산성 벤치마크 '트루벤치(TRUEBench)'를 공개했다고 25일 밝혔습니다.

 

'트루벤치'는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로 AI 모델의 업무 생산성 성능을 평가합니다.

 

많은 기업들이 업무 전반에 AI를 도입하고 있지만 기존 벤치마크로는 AI 모델의 업무 생산성 성능을 정확히 측정하기 어렵습니다. 실제 시중에 공개되어 있는 대부분의 AI 벤치마크는 영어를 중심으로 연속 대화가 아닌 한번 혹은 제한된 횟수로 대화를 평가하고 있습니다.

 

이번에 삼성전자가 공개한 '트루벤치'는 기존 벤치마크와 다르게 업무 생산성에 대한 집중 평가를 진행합니다. 실제 평가 항목은 10개 카테고리, 46개 업무, 2485개의 세분화된 항목으로 구성돼 있습니다.

 

평가 항목은 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크 리스트를 기반으로 완성됐습니다.

 

'트루벤치'는 총 2485개의 평가 기준으로 사용자의 짧은 요청부터 최대 2만자의 긴 문서 요약까지 실제 업무 상황을 평가합니다.

 

평가 결과도 기존 벤치마크와 다르게 사용자가 한 번에 최대 5개 모델을 선택해 비교할 수 있어 여러 AI 모델의 성능을 한눈에 파악 가능합니다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교할 수 있습니다.

 

전체 평가 점수뿐만 아니라 10개 카테고리에 대한 세부 항목별 점수도 공개해 기존 벤치마크보다 세밀한 평가 결과를 확인할 수 있습니다.

 

트루벤치는 영어·한국어·일본어·중국어·스페인어 등 총 12개 언어를 지원합니다. 특히, 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능합니다.

 

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스에 '트루벤치'의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했습니다.

 

AI 모델 성능 평가는 답변 생성 성능 외에도 AI 모델의 답변이 올바른지 판단하는 기준도 명확해야 합니다. '트루벤치'는 답변의 정확성뿐만 아니라 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가가 가능하도록 설계됐습니다.

 

또 평가 항목을 검증하는 방식에는 AI가 활용됩니다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 지속적인 교차 검증의 반복을 통해 정교한 평가 기준을 완성하게 됩니다.

 

이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결괏값을 제공합니다.

 

전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장 사장은 "삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다"라며 "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것"이라고 말했습니다.

English(中文·日本語) news is the result of applying Google Translate. <iN THE NEWS> is not responsible for the content of English(中文·日本語) news.

배너

이종현 기자 flopig2001@inthenews.co.kr

배너

금융위, 부동산 PF 점검…연체율 하락·연내 제도개선

금융위, 부동산 PF 점검…연체율 하락·연내 제도개선

2025.09.25 10:34:02

인더뉴스 제해영 기자ㅣ금융위원회는 금융감독원, 기획재정부, 국토교통부, 한국은행 등 관계기관과 합동으로 부동산 프로젝트파이낸싱(PF) 상황을 점검했다고 25일 밝혔습니다. 이번 점검에서는 금융권 PF 연체율, 사업성 평가, 정리·재구조화 진행 현황, 제도개선 추진 계획 등이 논의됐습니다. 회의는 서면으로 진행됐으며 은행, 증권사, 보험사 등 금융업권과 건설업계 대표자들도 함께 참여했습니다. 당국은 PF 시장 전반의 동향을 면밀히 점검하고 현장의 애로사항을 청취했습니다. 금융위에 따르면 6월 말 기준 금융권 PF 익스포져는 186조6000억원으로 집계됐습니다. 이는 전분기보다 4조1000억원 줄어든 수치로, 신규 취급액보다 사업 완료와 정리·재구조화에 따른 감소폭이 더 컸다는 설명입니다. 올해 2분기 신규 PF 취급액은 23조6000억원으로 전년 동기 대비 8조5000억원 증가했습니다. 사업성이 양호한 아파트, 오피스텔 등 주거·상업용 개발 사업을 중심으로 자금 공급이 확대된 것으로 분석됐습니다. 6월 말 기준 금융권 PF 대출 연체율은 4.39%를 기록했습니다. 이는 전분기보다 0.11%포인트 낮아진 수치로, 부실 사업장의 정리와 정상화가 이어지면서 개선세를 보이고 있습니다. 사업성 평가 결과, 유의·부실우려 여신 규모는 20조8000억원으로 전체 익스포져의 11.1%를 차지했습니다. 규모와 비중 모두 전분기보다 줄어들어 건전성 지표 개선에 긍정적인 영향을 준 것으로 나타났습니다. 특히 유의·부실우려 사업장의 정리·재구조화 실적은 누적 12조7000억원에 달했습니다. 이는 상반기 목표치였던 12조6000억원을 초과 달성한 것으로, 당국은 이를 PF 시장 안정화의 가시적 성과로 평가했습니다. 민간 전문가들은 “시장 급격한 충격 우려는 다소 완화됐다”고 분석했습니다. 다만 “지역별로 분양성과 수익성 차이가 존재하고, 일부 사업장은 여전히 불확실성이 남아 있다”고 지적했습니다. 금융당국은 향후 추가 부실 가능성에 대비해 상시 정리·재구조화를 이어가고, 고위험 사업장은 선제적으로 관리하겠다는 방침을 밝혔습니다. 또한 금융사에 대해서는 대손충당금 적립 확대, 내부 심사 강화 등을 주문했습니다. 연내에는 PF 건전성 제도개선 최종안을 확정할 예정입니다. 자기자본비율 반영 방식 개선, 위험가중치 정비, 업권별 대출한도 체계 재설계 등을 포함해 제도적 안전망을 강화한다는 계획입니다. 금융업계는 제도 개선의 필요성에 공감하면서도 유예기간을 두고 단계적으로 시행할 것을 요청했습니다. 자칫 급격한 규제 강화가 자금 공급 위축으로 이어져 사업 추진에 차질을 빚을 수 있다는 우려 때문입니다. 금융위원회 관계자는 “시장 안정과 금융권 건전성을 동시에 달성하기 위해 업계 의견을 충분히 수렴할 것”이라며 “연내 제도개선안을 마련해 지속가능한 PF 시장 환경을 조성하겠다”고 강조했습니다.




배너