'텍스트·이미지 동시 이해·추론' LG AI硏 '엑사원 4.5' 공개

비전 인코더와 거대언어모델 하나의 구조로 통합 AI 시각 능력 평가, 오픈AI GPT-5 미니·큐엔3-VL 상회 LG, 오픈 웨이트 공개로 AI 생태계 확장 기여

중요기사 |나기천 기자 | 입력 2026. 04. 09. 10:00

|스마트투데이=나기천 기자| LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 '멀티모달' 인공지능(AI) 모델 '엑사원 4.5'를 공개했다.

엑사원 4.5는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 엑사원 1.0을 개발하며 축적한 기술력에 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM, Vision Language Model)이다.

이번 모델은 독자 AI 파운데이션 모델 프로젝트에서 개발 중인 'K-엑사원'의 모달리티 확장을 위한 준비 단계이다.

이에 엑사원 4.5는 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다.

LG AI연구원은 엑사원 4.5의 멀티모달 AI 모델의 시각 처리와 추론 성능을 평가하는 벤치마크 점수 결과를 공개하며 경쟁력을 입증했다.

엑사원 4.5는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균 77.3점을 기록해 미국 오픈AI GPT 5-미니(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬 3 235B(77.0점)를 모두 앞섰다.

일반 시각 이해를 측정하는 3개 지표와, 이미지와 텍스트가 결합된 인포그래픽을 비롯해 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 GPT5-미니와 클로드 소넷 4.5, 큐웬3-VL을 상회하는 성능을 보였다.

LG AI연구원 관계자는 "시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미"라고 설명했다.

특히, 코딩 성능 대표 지표인 라이브코드벤치 v6에서는 81.4점으로 구글의 최신 모델 젬마 4(80.0점)를 넘었으며, 복잡한 차트를 분석하고 추론하는 능력을 평가하는 차트QA 프로에서는 62.2점으로 동급 모델과의 비교에서 글로벌 경쟁력을 입증했다.

엑사원 4.5는 효율성 측면에서도 주목할만 하다는 평가다.

엑사원 4.5는 330억 개 파라미터 규모(33B)로 지난해 말 공개한 K-엑사원의 약 7분의 1 크기이지만, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다.

LG AI연구원은 궁극적으로 엑사원을 가상 환경을 넘어 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스로 발전시키는 것을 목표로 하고 있다.

엑사원 4.5도 오픈 웨이트 공개... AI 생태계 확장 기여

LG AI연구원은 2024년 8월 엑사원 3.0을 국내 최초로 오픈 웨이트 모델로 공개한 이후 AI 연구 생태계 확장에 기여하기 위한 행보를 이어가고 있다.

이날 LG AI연구원은 엑사원 4.5를 글로벌 오픈소스 플랫폼인 허깅페이스에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다.

또한 LG AI연구원은 엑사원을 한국의 역사와 문화, 사회적 맥락까지 깊이 이해하는 AI로 발전시키기 위한 노력을 이어가고 있다.

올해 1월에는 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있으며, 고품질 데이터를 보유한 국내 다른 기관들과의 협업을 논의하고 있다.

김명신 LG AI연구원 신뢰안전사무국 총괄은 "한국어 능력을 갖춘 AI는 늘고 있지만, 역사와 문화적 민감성을 깊이 이해하는 것은 차원이 다른 문제"라고 강조하며 "엑사원은 자체 설계한 AI 위험 분류체계를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 말했다.

#엑사원 #멀티모달 #VLM

'텍스트·이미지 동시 이해·추론' LG AI硏 '엑사원 4.5' 공개

비전 인코더와 거대언어모델 하나의 구조로 통합 AI 시각 능력 평가, 오픈AI GPT-5 미니·큐엔3-VL 상회 LG, 오픈 웨이트 공개로 AI 생태계 확장 기여

엑사원 4.5도 오픈 웨이트 공개... AI 생태계 확장 기여

관련기사

LG AI 모델 ‘엑사원 4.0’, 글로벌 11위...글로벌 경쟁력 입증

LG AI연구원, ‘K-엑사원’ 성능 공개

독자 AI 1차 평가서 LG AI연구원 최고점… 네이버·NC는 '탈락'

LG AI연구원, AI 윤리 책무성 보고서 발간

많이 보는 뉴스

한화오션 60조 加 잠수함 수주전서 고배… "獨 TKMS 선정"

바이오 시그널 디앤디파마텍, MASH 서프라이즈 뒤 조정...기술이전이 남은 변수

바이오 시그널 주가 롤러코스터 탄 로킷헬스케어, 관전 포인트는?

'신한지주, 롯데손보 인수에 큰 금액 못 지른다'

삼성SDS도 창사 첫 노조 결성... 2시간만 1만1000명 중 2000명 가입

한화오션 캐나다 잠수함 수주 결과, '7일 오전 5시10분' 발표

머니 디코드

AI는 어디에나 있는데, 생산성은 왜 안 보이나…빅테크 투자 흔드는 ‘솔로우 패러독스’

2조달러 스페이스X, 벌써 하락론 나오는 이유는?

김효식 삼성액티브 팀장 "변압기주는 더 갈 수 있나…답은 EPS 성장률에 있다"

토큰경제학 엔비디아의 다음 돈줄은 GPU가 아니라 메모리다

댓글 (0)

댓글 작성

추천 기사

"삼성전자, 하반기 EPS 성장률 대폭 둔화..목표가 43만원→39만원 하향"

한양증권, 500억원 자본확충 완료

태광그룹 일주재단, 해외박사 장학생 7명 선발…1인당 12만달러 지원

할인 대신 호텔·공연…통신3사, 장기고객 잡기 '경험 경쟁'

7조 투자 로드맵 공개한 우리금융, 스타트업 발굴부터 상장까지 전주기 지원

홈플러스 회생 절차에 발 묶인 협력사들…KB국민은행, 최대 5억 긴급 수혈

세화미술관, 거장 게오르그 바젤리츠 회고전...얼리버드 티켓 판매

증권

금융

산업

건설·부동산

사회

글로벌

오피니언

'텍스트·이미지 동시 이해·추론' LG AI硏 '엑사원 4.5' 공개

비전 인코더와 거대언어모델 하나의 구조로 통합 AI 시각 능력 평가, 오픈AI GPT-5 미니·큐엔3-VL 상회 LG, 오픈 웨이트 공개로 AI 생태계 확장 기여

엑사원 4.5도 오픈 웨이트 공개... AI 생태계 확장 기여

관련기사

LG AI 모델 ‘엑사원 4.0’, 글로벌 11위...글로벌 경쟁력 입증

LG AI연구원, ‘K-엑사원’ 성능 공개

독자 AI 1차 평가서 LG AI연구원 최고점… 네이버·NC는 '탈락'

LG AI연구원, AI 윤리 책무성 보고서 발간

많이 보는 뉴스

한화오션 60조 加 잠수함 수주전서 고배… "獨 TKMS 선정"

바이오 시그널 디앤디파마텍, MASH 서프라이즈 뒤 조정...기술이전이 남은 변수

바이오 시그널 주가 롤러코스터 탄 로킷헬스케어, 관전 포인트는?

'신한지주, 롯데손보 인수에 큰 금액 못 지른다'

삼성SDS도 창사 첫 노조 결성... 2시간만 1만1000명 중 2000명 가입

한화오션 캐나다 잠수함 수주 결과, '7일 오전 5시10분' 발표

머니 디코드

AI는 어디에나 있는데, 생산성은 왜 안 보이나…빅테크 투자 흔드는 ‘솔로우 패러독스’

2조달러 스페이스X, 벌써 하락론 나오는 이유는?

김효식 삼성액티브 팀장 "변압기주는 더 갈 수 있나…답은 EPS 성장률에 있다"

토큰경제학 엔비디아의 다음 돈줄은 GPU가 아니라 메모리다

댓글 (0)

댓글 작성

추천 기사

"삼성전자, 하반기 EPS 성장률 대폭 둔화..목표가 43만원→39만원 하향"

한양증권, 500억원 자본확충 완료

태광그룹 일주재단, 해외박사 장학생 7명 선발…1인당 12만달러 지원

할인 대신 호텔·공연…통신3사, 장기고객 잡기 '경험 경쟁'

7조 투자 로드맵 공개한 우리금융, 스타트업 발굴부터 상장까지 전주기 지원

홈플러스 회생 절차에 발 묶인 협력사들…KB국민은행, 최대 5억 긴급 수혈

세화미술관, 거장 게오르그 바젤리츠 회고전...얼리버드 티켓 판매

증권

금융

산업

건설·부동산

사회

글로벌

오피니언

ASIAN