CPCLDETECTOR:中国語における過剰な保護や恩着せがましい表現検出のための知識拡張と整合性選択
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.18562v2(発表種別:replace-cross)
要旨:中国語における高圧的で恩着せがましい言語(CPCL)は、中国の動画プラットフォームにおいて脆弱な集団を標的にした、暗黙的な差別を含む有害な発言である。既存のデータセットは、動画内容を直接反映するユーザーコメントを欠いており、モデルによる動画内容の理解を阻害し、一部のCPCL動画の検出に失敗する結果となっている。この欠点を補うため、本研究では10万3千件のコメントエントリを含む新たなデータセットPCLMMPLUSを構築し、データセット規模を拡大した。また、アライメント選択と知識拡張コメントコンテンツモジュールを備えたCPCLDetectorモデルを提案する。広範な実験により、提案するCPCLDetectorはPCLMMにおける最先端技術を上回り、PCLMMPLUSにおいても高い性能を達成することが示された。CPCL動画の検出精度が向上し、コンテンツガバナンスと脆弱な集団の保護に資する。コードとデータセットはhttps://github.com/jiaxunyang256/PCLDにて公開している。
原文(英語)を表示
Title (EN): CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
arXiv:2509.18562v2 Announce Type: replace-cross
Abstract: Chinese Patronizing and Condescending Language (CPCL) is an implicitly discriminatory toxic speech targeting vulnerable groups on Chinese video platforms. The existing dataset lacks user comments, which are a direct reflection of video content. This undermines the model’s understanding of video content and results in the failure to detect some CPLC videos. To make up for this loss, this research reconstructs a new dataset PCLMMPLUS that includes 103k comment entries and expands the dataset size. We also propose the CPCLDetector model with alignment selection and knowledge-enhanced comment content modules. Extensive experiments show the proposed CPCLDetector outperforms the SOTA on PCLMM and achieves higher performance on PCLMMPLUS . CPLC videos are detected more accurately, supporting content governance and protecting vulnerable groups. Code and dataset are available at https://github.com/jiaxunyang256/PCLD.
Published: 2025-09-24 19:00 UTC