카카오, 한국어 중심 비전-언어 모델 '카나나-V' 공개…3.6B 경량화 모델로 산업 전반 적용 가능성 높아
7월 24일, 카카오는 한영 다국어 환경에서 고성능을 발휘하는 경량화 비전-언어 모델(Vision-Language Model, VLM) '카나나-1.5-V-3B-Instruct'를 오픈소스로 공개했다. 이 모델은 카카오 유니파이드 파운데이션 모델 팀(UFO TF)이 독자적으로 개발한 것으로, 3.67B 파라미터 규모를 자랑하며 일반적인 비전-언어 태스크는 물론 한국어 특화 태스크에 최적화된 성능을 제공한다.
카나나-V는 텍스트와 이미지를 동시에 입력으로 받아 텍스트를 생성하는 'text/image-to-text(TI2T)' 구조를 채택하고 있다. 이를 통해 이미지 캡셔닝(이미지에 대한 설명문 생성), 문서 이해(스캔된 문서나 PDF의 내용 파악), OCR 기반 추론(이미지 내 텍스트를 인식하고 분석하는 과정), 멀티모달 인스트럭션 팔로잉(텍스트와 이미지를 결합한 명령어 수행) 등 다양한 분야에 적용할 수 있다. 특히 한국어와 영어를 동시 지원하는 특징을 가지고 있으며, 한국어 비전-언어 벤치마크 테스트에서 뛰어난 성과를 거두었다.
이 이미지는 카카오가 공개한 비전-언어 모델 '카나나-V'의 공식 로고를 보여준다. 로고 디자인은 모델의 이름인 '카나나'에서 유래한 파란색과 초록색의 조합으로, 멀티모달 AI의 융합성을 상징한다. 사용자는 이 로고를 통해 카나나-V 모델의 브랜드 아이덴티티를 쉽게 인식할 수 있다.
성능 평가 결과에 따르면, 카나나-1.5-V-3B-Instruct는 전체 평균 73.22점을 기록하여 동급 경쟁 모델들을 크게 앞서고 있다.具體적으로는 HCX-SEED-Vision-3B(59.00점), Phi-3-Vision(48.84점), Qwen2.5-VL-3B-Instruct(63.54점), InternVL2.5-4B(61.35점) 등과 비교했을 때 뚜렷한 성능 차이를 보였다. 특히 한국어 이미지 벤치마크(KoOCRBench, KoMMDBench 등)에서는 68.27점을 얻어 Qwen2.5-VL-3B-Instruct(60.60점)보다 7.67점 높은 성과를 거두었으며, 이는 한국어 특화 데이터셋으로 학습된 효과가 두드러지게 나타난 결과로 분석된다.
영어 이미지 벤치마크(MMMU, MathVista, DocVQA 등)에서는 74.00점을 기록하여 Qwen2.5-VL-3B-Instruct(73.97점)와 근소한 차이로 유사한 수준의 성능을 보였다. 또한 멀티모달 인스트럭션 팔로잉 벤치마크(MIABench, MIABench-Ko 등)에서는 77.39점을 기록해 경쟁 모델들에 비해 월등히 우수한 결과를 보였다. 특히 한국어 인스트럭션 팔로잉 태스크(MIABench-Ko)에서는 91.17점이라는 높은 점수를 얻어, 한국어 명령어에 대한 높은 이해 능력을 입증했다.
이 그래프는 카나나-V와 동급 경쟁 모델들의 전체 평균 성능 점수를 비교한 것이다. 가로축에는 모델 이름이, 세로축에는 평균 점수가 표시되어 있으며, 카나나-V가 73.22점으로 가장 높은 위치에 있는 것을 확인할 수 있다. 이를 통해 카나나-V의 경쟁 우위를 직관적으로 이해할 수 있으며, 개발자나 연구자들은 이 데이터를 바탕으로 모델 선택에 참고할 수 있다.
카카오는 카나나-V의 기술적 특징으로 이미지 인코더, C-abstractor, 카나나-1.5-3B-Instruct 언어 모델로 구성된 혁신적인 아키텍처를 강조했다. 여기서 C-abstractor는 이미지 피처를 텍스트 생성에 적합한 형태로 변환하는 핵심 구성 요소로, 32k 토큰의 긴 컨텍스트를 처리할 수 있는 능력을 가지고 있어 긴 문서나 복잡한 이미지에 대한 이해에도 유리하다. 이는 특히 법률 문서, 의료 보고서와 같은 전문 분야의 문서 처리에 큰 도움이 될 것으로 기대된다.
또한, 카나나-V는 오픈소스 라이브러리 'transformers'를 통해 쉽게 설치하고 사용할 수 있으며, 자세한 설치 방법과 예제 코드는 GitHub README에서 확인할 수 있다. 카카오는 이 모델을 연구 목적은 물론 상업적인 애플리케이션 개발에도 자유롭게 활용할 수 있도록 라이선스를 제공하고 있으며, 기술적인 지원을 위해 'kanana-mllm@kakaocorp.com'을 통해 문의를 받고 있다.
카카오 UFO TF 팀장은 "카나나-V는 한국어 비전-언어 연구 생태계를 활성화하고, 관련 분야의 기술 발전을 촉진하기 위해 개발되었습니다"며, "향후 스마트 홈, e커머스, 교육, 헬스케어 등 다양한 산업 분야에서 한국어 멀티모달 AI 애플리케이션 개발에 큰 기여를 할 것으로 기대합니다"고 전했다.
이번 카나나-V의 오픈소스 공개는 국내 AI 생태계에 큰 파급 효과를 미칠 것으로 예상된다. 특히 경량화된 모델 크기와 높은 성능을 겸비하고 있어, 스마트폰이나 IoT 기기와 같은 엣지 디바이스에도 적용이 가능할 것으로 보이며, 이는 AI 기술의 보급과 활용 범위를 넓히는 계기가 될 것이다. 앞으로 카카오는 카나나-V의 성능을 더욱 향상시키기 위한 연구를 계속할 계획이며, 사용자들의 피드백을 반영하여 모델을 지속적으로 업데이트할 예정이다.
전반적으로 카카오의 카나나-V 공개는 한국어 AI 기술의 경쟁력을 높이는 중요한 이정표가 될 것으로 평가된다. 비전-언어 모델은 이미지와 텍스트를 결합한 인공지능의 핵심 분야로, 이 분야에서의 기술력 향상은 다양한 산업 전반에 걸쳐 혁신을 촉발할 것으로 기대된다. 카나나-V가 오픈소스로 공개됨으로써, 연구자들과 개발자들이 보다 쉽게 고성능의 비전-언어 모델을 활용할 수 있게 되었으며, 이는 결국 한국 AI 산업의 발전에 큰 도움이 될 것이다.
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



