階層ベイズ作用素誘起記号回帰木による科学式構造学習
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19710v1発表形式:クロス
概要:Scientific Machine Learningの台頭は、科学的発見において変革の時代を告げ、多様な分野で進歩を促進しています。この進歩の中心となるのは、実験データから数式回帰を通して科学法則を解明することです。しかし、既存のアプローチは、ヒューリスティックアルゴリズムやデータ依存性の高いブラックボックス手法が主流であり、ノイズの少ない設定を必要とし、原理に基づいた不確実性の定量化が不足しています。解釈可能な統計的Artificial Intelligenceに着想を得て、我々は、正則化された木事前分布を備えた木構造の数式表現のアンサンブルとして科学法則を表す、数式回帰のための階層ベイズフレームワークを開発しました。この首尾一貫した確率論的定式化により、効率的なマルコフ連鎖モンテカルロアルゴリズムを用いた完全な事後推論が可能となり、予測精度と構造的簡潔さとのバランスを実現します。数式モデルの選択を導くために、オッカムのウィンドウ原理に準拠した周辺事後確率に基づく基準を開発し、さらに、調整された式距離メトリックを通じて、真の値に対する構造的一致性を定量化します。理論面では、ベイズ事後確率の集中に関する近ミニマックスレートを確立し、数式回帰の文脈において最初の厳密な保証を提供します。経験的評価により、シミュレートされた例、一連の標準的なファインマン方程式、および単原子触媒データセットにおいて、最先端の競合モジュールに対して、提案手法の堅牢な性能が実証されました。
原文(英語)を表示
Title (EN): Hierarchical Bayesian Operator-induced Symbolic Regression Trees for Structural Learning of Scientific Expressions
arXiv:2509.19710v1 Announce Type: cross
Abstract: The advent of Scientific Machine Learning has heralded a transformative era in scientific discovery, driving progress across diverse domains. Central to this progress is uncovering scientific laws from experimental data through symbolic regression. However, existing approaches are dominated by heuristic algorithms or data-hungry black-box methods, which often demand low-noise settings and lack principled uncertainty quantification. Motivated by interpretable Statistical Artificial Intelligence, we develop a hierarchical Bayesian framework for symbolic regression that represents scientific laws as ensembles of tree-structured symbolic expressions endowed with a regularized tree prior. This coherent probabilistic formulation enables full posterior inference via an efficient Markov chain Monte Carlo algorithm, yielding a balance between predictive accuracy and structural parsimony. To guide symbolic model selection, we develop a marginal posterior-based criterion adhering to the Occam’s window principle and further quantify structural fidelity to ground truth through a tailored expression-distance metric. On the theoretical front, we establish near-minimax rate of Bayesian posterior concentration, providing the first rigorous guarantee in context of symbolic regression. Empirical evaluation demonstrates robust performance of our proposed methodology against state-of-the-art competing modules on a simulated example, a suite of canonical Feynman equations, and single-atom catalysis dataset.
Published: 2025-09-24 19:00 UTC