音声用コード生成におけるアライメントの埋め込み
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2508.05473v2発表形式:置き換え-クロス
要約:LLMを用いたコード生成は、構文の詳細よりも構造的なモチーフに焦点を当てることを可能にすることで、ライブコーディングなどの創造的なコーディング活動を革新する可能性を秘めています。このような分野では、LLMにプロンプトを与える際に、ユーザーは複数の多様なコード候補を検討することで、音楽的な意図をより的確に実現できる可能性があります。しかし、コード生成モデルは、コードの音声出力に関する直接的な洞察がないため、独自で多様なコード候補を提示することに苦労しています。コード候補と生成された音声の関係をより確立するために、コードと音声埋め込み空間間のマッピングのトポロジーを調査します。コードと音声の埋め込みは単純な線形関係を示さないことを発見しましたが、埋め込みアライメントマップを学習できることを示す構築された予測モデルを補完します。音楽的に多様な出力を目指すことを補完するために、コードから出力音声埋め込みを予測し、コード-音声埋め込みアライメントマップを構築するモデルを提示します。
原文(英語)を表示
Title (EN): Embedding Alignment in Code Generation for Audio
arXiv:2508.05473v2 Announce Type: replace-cross
Abstract: LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code’s audio output. To better establish a relationship between code candidates and produced audio, we investigate the topology of the mapping between code and audio embedding spaces. We find that code and audio embeddings do not exhibit a simple linear relationship, but supplement this with a constructed predictive model that shows an embedding alignment map could be learned. Supplementing the aim for musically diverse output, we present a model that given code predicts output audio embedding, constructing a code-audio embedding alignment map.
Published: 2025-09-24 19:00 UTC