2025年4月、ChatGPTとDeepSeekのベンチマーク:語彙ベースと深層学習アプローチを用いた新規二重視点センチメント分析
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.19346v1発表。新規投稿。
概要:本研究は、Google Playストア上のChatGPTとDeepSeekに関するユーザーレビューを分析する新規の二重視点アプローチを提示する。これは、辞書ベースの感情分析(TextBlob)と、畳み込みニューラルネットワーク(CNN)や双方向長短期記憶ネットワーク(Bi-LSTM)を含む深層学習分類モデルを統合するものである。先行研究が辞書ベース戦略または予測的深層学習モデルのいずれかに焦点を当てているのに対し、本研究は、大規模言語モデル(LLM)ベースのアプリケーションに対するユーザー満足度に関する広範な調査を実施する。4,000件の信頼できるユーザーレビューからなるデータセットを収集し、注意深く前処理を行い、オーバーサンプリングによってバランスのとれたクラスを実現した。1,700件のレビューからなるバランスのとれたテストセットをモデルテストに使用した。実験の結果、ChatGPTはDeepSeekよりも有意に肯定的な感情を受けていることが明らかになった。さらに、深層学習に基づく分類は、辞書分析よりも優れた性能を示し、CNNは96.41%の精度とほぼ完璧なネガティブレビューの分類、ならびにニュートラルおよび肯定的な感情に関する高いF1スコアを達成することにより、Bi-LSTMを上回った。本研究は、LLMベースのアプリケーションにおける感情測定のための新たな方法論的基準を確立し、ユーザー中心のAIシステム設計の改善を目指す開発者や研究者にとって実践的な知見を提供する。
原文(英語)を表示
Title (EN): Benchmarking ChatGPT and DeepSeek in April 2025: A Novel Dual Perspective Sentiment Analysis Using Lexicon-Based and Deep Learning Approaches
arXiv:2509.19346v1 Announce Type: new
Abstract: This study presents a novel dual-perspective approach to analyzing user reviews for ChatGPT and DeepSeek on the Google Play Store, integrating lexicon-based sentiment analysis (TextBlob) with deep learning classification models, including Convolutional Neural Networks (CNN) and Bidirectional Long Short Term Memory (Bi LSTM) Networks. Unlike prior research, which focuses on either lexicon-based strategies or predictive deep learning models in isolation, this study conducts an extensive investigation into user satisfaction with Large Language Model (LLM) based applications. A Dataset of 4,000 authentic user reviews was collected, which were carefully preprocessed and subjected to oversampling to achieve balanced classes. The balanced test set of 1,700 Reviews were used for model testing. Results from the experiments reveal that ChatGPT received significantly more positive sentiment than DeepSeek. Furthermore, deep learning based classification demonstrated superior performance over lexicon analysis, with CNN outperforming Bi-LSTM by achieving 96.41 percent accuracy and near perfect classification of negative reviews, alongside high F1-scores for neutral and positive sentiments. This research sets a new methodological standard for measuring sentiment in LLM-based applications and provides practical insights for developers and researchers seeking to improve user-centric AI system design.
Published: 2025-09-24 19:00 UTC