針の糸を通す:人間のラベルのバリエーションを説明するための思考連鎖推論の再構築

針の糸を通す:人間のラベルのバリエーションを説明するための思考連鎖推論の再構築 なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。 ソースを読む(export.arxiv.org) a … 続きを読む

会員推論攻撃に対する検索データのプライバシー保護:「このクエリは近すぎるか?」

会員推論攻撃に対する検索データのプライバシー保護:「このクエリは近すぎるか?」 なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。 ソースを読む(export.arxiv.org) a … 続きを読む

Meeseeks:フィードバック主導型反復的自己修正ベンチマークによる大規模言語モデルの指示遵守能力評価

Meeseeks:フィードバック主導型反復的自己修正ベンチマークによる大規模言語モデルの指示遵守能力評価 なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。 ソースを読む(export.arxi … 続きを読む