이정민 기자
janelee@todaykorea.co.kr
기자페이지
KISA, AI기반 비정형 데이터 분석 사례 발표
이처럼 온라인 상에 수많은 데이터가 산재돼 있고 이 중 80%가 비정형으로 이뤄진 만큼 빅데이터와 IT 기술의 발달이 국가 경제 및 안보에 대한 위협으로 부상하고 있다. 이에 따라 고도화된 사이버 공격에 맞설 수 있는 ‘사이버 시큐리티‘에 대한 수요가 급증하며 인공지능(AI)·클라우드·보안관제 관련 연구와 개발을 통해 기하급수적으로 증가하고 있는 사이버 위협정보를 예방하고 대응해야 한다는 목소리가 나온다.
한국인터넷진흥원(KISA)은 16일 열린 ‘3분기 사이버보안 빅데이터 활용 공유 세미나’에서 AI기반 비정형 데이터 분석 사례를 발표했다.
해당 연구는 온라인을 통해서 생성· 전파되는 사이버 위협정보가 국가 경제 발전과 인프라와 같은 시스템에 큰 위협될 수 있는 요소로 작용하고 이에 대한 대응력 강화가 요구됨에 따라 지난 2018년부터 시작됐다. 현재까지 위협정보를 수집해 자동화하고 AI 기반 사이버 위협정보 분석기반을 마련하는 등 작업을 완료했으며, 올해에는 특히 수집된 정보 중 우리나라의 고위험 위협정보를 선별하고 그에 따른 대응 체계를 구축하고 있다.
KISA는 보안 위협 대응 데이터 및 평가지표 확립을 위해 다양한 AI 기반 알고리즘 기술을 활용했다. 먼저 인터넷 상에 존재하는 게시물을 자동으로 수집하는 웹 크롤러(Web Crawler) 프로그램을 통해 주기적으로 혹은 특정 페이지에서 원하는 정보를 얻거나 웹 페이지를 직접 방문하지 않고도 데이터를 수집해 효율성을 높였다.
머신러닝 기술로는 크게 3가지 학습유형으로 분류해 연구를 수행했다. 라벨링된 데이터를 학습하고 예측에 활용하는 지도학습, 라벨링 데이터 없이 데이터 내 특징 및 구조 추출에 활용한 비지도학습, 선택 가능한 행위 중 보상 최대 행위만 선택하는 강화학습 등이다. 위협적 정보가 갖는 언어적 특성을 기계에 학습시켜 형태소 분석, 자음이나 숫자의 연속성을 인식, 토큰화, 정제, 어간 추출 및 불용어 처리 등으로 빠르게 분석과 탐지가 가능하다.
선형판별분석 기술로 데이터가 가지고 있는 단어 수 분포를 분석해 어떤 주제가 숨겨져 있는 지를 예측하고 이를 통해 산출된 단어 가중치 사전을 활용해 사이버 위협정보 중요도와 확산도를 분석했다. 사용자의 웹페이지에 표시, 대응이 신속히 필요한지 등을 판별할 수 있다.
KISA는 이렇게 알고리즘 기술로 수집한 위협정보를 AI가 분석할 수 있는 형태의 데이터로 정형화하는 과정도 거쳤다고 전했다. 이미지 파일로 된 문자와 동영상 내 음성을 텍스트로 변환하거나 자연어 처리가 가능하도록 중요부분을 추출하는 기술도 사용했다.
또 잠재 디리클레 할당(LDA)를 활용한 사이버 위협정보 위험도 및 확산도를 각 단어의 가중치를 비교 분석해 피해대상, 피해기간 등 주요 주제와 중요도를 자동 예측했으며, 해킹, 피싱, 스미싱, 디도스, 접속장애, 개인정도 등 대분류 10개 별 1200번의 반복학습을 수행한 모델을 구축했다.
이후 실제 관제원의 수동 작업으로 측정하고 분석하던 기존 데이터에 학습하고 비교한 결과 중요도와 확산도가 80% 일치하는 등 충분히 침해 사고 대응에 활용할 수 있는 가능성을 도출했다.
하지만 KISA 관계자는 “텍스트, 이미지, 동영상과 같은 비정형 데이터의 분석 체계가 마련된다 하더라도 침해사고에 완벽히 대응하기 위해서는 로그, MDS, HASH 등으로 구성된 정형·반정형 데이터의 복합적인 연관성 분석 체계가 구축돼야 한다”고 말했다.
이어 “침해지표(IoC)와 비정형 데이터 기반의 사이버 위협정보 산출 값을 기반으로 침해 시 전반을 판단하고 대응할 수 있는 종합 위험도 평가 지표가 필요하다”고 덧붙였다.
