Boruta特徴選択とDBSCANアルゴリズムを用いた、異なるリサンプリング手法による信用デフォルト予測の精度向上

Boruta特徴選択とDBSCANアルゴリズムを用いた、異なるリサンプリング手法による信用デフォルト予測の精度向上

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19408v1発表。新規。

抄録:本研究は、クレジットデフォルト予測において、クラス不均衡問題に対処するために一般的に用いられるSMOTE、SMOTE-Tomek、ADASYNの3つの手法を比較検討する。クレジットデフォルトデータセットは、デフォルト者の方が非デフォルト者よりもはるかに少ない割合を占める歪んだデータであることを踏まえ、まずリサンプリングを行わない不均衡データに対する機械学習(ML)モデルの性能評価を行い、基準性能を確立した。これらの基準結果は、後続のバランス手法の影響を理解するための基準となる。ナイーブベイズやK-Nearest Neighbors (KNN)などの従来の分類器に加え、Boruta特徴選択とDBSCANベースの異常値検出を用いた、Extreme Gradient Boosting (XGBoost)、AdaBoost、Gradient Boosting Machines (GBM)、Light GBMを含む高度なアンサンブルブースティングアルゴリズムのクレジットデフォルト予測への適合性についても検討した。リサンプリングの前後において検討を行った。クリーブランド大学MLリポジトリから取得した現実世界のクレジットデフォルトデータセットを用いてML分類器を構築し、その性能を検証した。モデル性能の測定指標として、受信者動作特性曲線下面積(ROC-AUC)、精密再現率曲線下面積(PR-AUC)、G平均、F1スコアを選定した。この実証研究の結果、Boruta+DBSCAN+SMOTE-Tomek+GBM分類器が他のMLモデルよりも優れた性能を示した(F1スコア: 82.56%、G平均: 82.98%、ROC-AUC: 90.90%、PR-AUC: 91.85%)。これらの知見は、世界的にクレジット取引が増加する中で不可欠となる、より強靭で適応力のあるクレジットデフォルトシステムの構築に向けた将来の発展の基盤となる。

原文(英語)を表示

Title (EN): Enhancing Credit Default Prediction Using Boruta Feature Selection and DBSCAN Algorithm with Different Resampling Techniques

arXiv:2509.19408v1 Announce Type: new
Abstract: This study examines credit default prediction by comparing three techniques, namely SMOTE, SMOTE-Tomek, and ADASYN, that are commonly used to address the class imbalance problem in credit default situations. Recognizing that credit default datasets are typically skewed, with defaulters comprising a much smaller proportion than non-defaulters, we began our analysis by evaluating machine learning (ML) models on the imbalanced data without any resampling to establish baseline performance. These baseline results provide a reference point for understanding the impact of subsequent balancing methods. In addition to traditional classifiers such as Naive Bayes and K-Nearest Neighbors (KNN), our study also explores the suitability of advanced ensemble boosting algorithms, including Extreme Gradient Boosting (XGBoost), AdaBoost, Gradient Boosting Machines (GBM), and Light GBM for credit default prediction using Boruta feature selection and DBSCAN-based outlier detection, both before and after resampling. A real-world credit default data set sourced from the University of Cleveland ML Repository was used to build ML classifiers, and their performances were tested. The criteria chosen to measure model performance are the area under the receiver operating characteristic curve (ROC-AUC), area under the precision-recall curve (PR-AUC), G-mean, and F1-scores. The results from this empirical study indicate that the Boruta+DBSCAN+SMOTE-Tomek+GBM classifier outperformed the other ML models (F1-score: 82.56%, G-mean: 82.98%, ROC-AUC: 90.90%, PR-AUC: 91.85%) in a credit default context. The findings establish a foundation for future progress in creating more resilient and adaptive credit default systems, which will be essential as credit-based transactions continue to rise worldwide.

Published: 2025-09-24 19:00 UTC


コメントする