금융위원회가 지난해 12월 발표한 ‘금융권 생성형 인공지능(AI) 활용 지원 방안’의 후속 조치로 31일부터 ‘금융 특화 한글 말뭉치’를 제공한다고 밝혔다.
금융 특화 한글 말뭉치란 금융 분야의 다양한 전문지식을 AI 모델이 가공·처리·분석할 수 있는 형태로 모은 대규모 한국어 언어자료 집합이다.
그간 금융사들은 해외에서 일반 사용자들을 위해 개발된 상용 AI를 활용해왔다.
하지만 한국어로 된 금융 용어, 한국 금융 법규 등 전문화된 데이터가 부족해 금융 특화 업무 수행에 있어 어려움이 있었다.
금융 특화 한글 말뭉치는 AI 모델의 금융 전문지식 학습과 답변의 정확도 제고, 성능과 윤리 평가 등에 활용할 수 있도록 다양한 형태로 제공된다.
우선 학습용 말뭉치를 지원한다.
금융 분야 일반 지식을 학습하기 위한 사전학습용 말뭉치는 금융감독원, 은행연합회 등 금융용어 사전, 금융 일반지식 자료를 활용했다.
서비스 개발을 위한 추가학습용 말뭉치는 국내 금융정책·제도 설명자료, 금융 법규·가이드라인 및 보험연수원의 기초 연수자료를 활용해 구축했다.

AI 모델이 외부 최신 정보나 전문 데이터를 참조해 정확한 답변을 도출하도록 하는 검색증강생성(RAG)용 말뭉치도 지원한다.
또 AI 모델의 금융 지식, 추론 능력 및 잠재적 유해성을 평가하기 위한 평가지원용 말뭉치를 지원한다.
학습데이터와 별도로 구축된 해당 말뭉치를 활용해 AI의 객관적인 성능과 공정성을 검증할 수 있다.
이번에 제공되는 금융 공통분야 말뭉치는 1만2600건, 약 45기가바이트(GB) 이상 규모다.
사전학습용 6700건, 추가학습용 1100건, 검색증강생성용 3800건, 평가지원용 1000건으로 구성됐다.

이용을 희망할 경우 금융결제원 데이터 공유 플랫폼을 통해 신청하고 다운로드받을 수 있다.
올해 6월 말까지 진행되는 이번 시범사업 기간까지 무료 제공된다.
금융위는 금융사들의 추가 수요와 의견을 반영해 올해 하반기 말뭉치의 유형과 규모를 확대할 예정이다.
내년부터는 업권별 특화 말뭉치를 지원할 수 있도록 다양한 원천 데이터 보유기관 및 유관기관과 지속해서 협의해나갈 계획이다.
오규민 기자 moh011@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제 무단전재 배포금지>