Skip to content

Latest commit

 

History

History
27 lines (15 loc) · 2.34 KB

README.md

File metadata and controls

27 lines (15 loc) · 2.34 KB

부실가계 분류모델에 관한 연구


연구 배경 및 목표

코로나 사태 이후 생계형 대출의 증가, 영끌, 빛투 등과 같은 원인으로 가계부채가 GDP의 100%이상 초과할 정도로 증가한 상황에 직면
부실가계를 분류해내는 인공지능 모형 모델링에 대해 연구하여 적절한 방법을 알아내고자 함

데이터

『가계금융 · 복지조사』(2019,2020)


개요

선행연구를 바탕으로 설명변수를 선별하였고 종속변수(label)의 경우 DTA,DSR,HDRI와 같은 부채관리지표들을 고려하여 부실가계 여부를 나타내는 범주형 파생변수로 생성하였다. 사용된 분류 알고리즘으로 의사결정나무, LightGBM, 로지스틱 회귀, 인공신경망 모형이 있다. GridSearchCV모듈을 통해 각 알고리즘 별로 하이퍼 파라미터 튜닝을 진행하였다. 또한 본 연구에서 데이터는 비대칭적인 데이터 구조를 가지므로 SMOTE라는 오버샘플링 알고리즘을 통해 데이터 균형을 맞추어 주었다.


결과

전반적으로 SMOTE(oversampling 알고리즘)적용이후 분류 알고리즘들은 정확도(Acurracy) 하락, 정밀도(Precision) 하락, 재현율(Recall) 상당히 상승, AUC 전체적으로 상승하는 결과를 보였다. 이는 SMOTE를 통해 비대칭적 데이터로 인한 오버피팅 문제가 완화되었다고 생각할 수 있고 본 연구에서 중요하게 생각하는 재현율(Recall)의 상승 폭이 가장 컸다. 최종적으로 로지스틱 회귀 알고리즘이 오버 샘플링 이후 가장 민감하게 반응했으며 성능 또한 다른 알고리즘들에 비해 균형있으면서도 좋게 나왔다. 트리기반 알고리즘에 도출되는 피처 중요도를 비교해본 결과 의사결정 나무에서는 2019년도 2020년도가 담보대출기관이 은행인지 비은행 금융기관인지의 여부(1,2위) 동일하게 가장 높았다. 반면 비교적 중요해진 특징으로 거주주택 마련을 위한 담보대출 여부 그리고 가구주 종사상지위가 크게 중요해졌다. LightGBM의 경우 거주주택 마련을 위한 담보대출의 중요도가 크게 상승했으며 담보대출기관이 은행인지 여부, 가구주 혼인상태, 수도권 여부 등이 비교적 중요해졌다.