MENU

“丁寧に頼むほど賢くなる”は思い込み?トーンで変わるChatGPTの正答率:ペンシルベニア州立大の実験から見えたこと

aihow.jp(誰でもAI を使えるAI関連のニュース&使い方ガイド)_2025-11-12 10-20-15

「ていねいにお願いすれば、AIは良い答えをくれるはず」。多くの人が抱く直感に、最新の研究が小さく“待った”をかけました。ペンシルベニア州立大学の短報によると、ChatGPT(GPT-4o)は“とても丁寧”な依頼より、“とても失礼”な命令口調の方が、選択式問題での正答率がわずかに高くなる傾向が確認されました。
読者としては「え、わざと感じ悪くしたほうがいいの?」と戸惑いますよね。ここでは研究の中身と、日常利用に落とす現実的なコツを、感情にも寄り添いながら整理します。

研究の要点(数字で一気に)

  1. 対象モデル:ChatGPTのGPT-4o
  2. 出題:数学・科学・歴史から50問の4択などを作成
  3. トーン:Very Polite/Polite/Neutral/Rude/Very Rudeの5段階(合計250プロンプト)
  4. 結果:Very Politeの正答率80.8%に対し、Very Rudeは84.8%(差は約4ポイント)
  5. 位置づけ:2025年10月6日付の査読前短報(arXivのプレプリント)
    「数字でハッキリ示されると、『ほんの言い回しでそこまで変わるの?』と驚きますよね」

なぜ“失礼”が強く見えるのか(考えられる説明)
・命令調は“やるべき作業”を明確化しやすい
・曖昧表現がそぎ落とされ、モデルの迷い(言い換え・保守的な助言)が減る
・強い断定や圧のある表現が、出力の“ためらい”を抑える
「とはいえ“暴言を吐け”という話ではありません。『曖昧さを潰す』『評価基準を示す』という“構造”がポイントです」

失礼にしないで成果を上げる:プロンプトの現実解
「失礼にしたくない。でも精度は上げたい」。多くのユーザーの本音に寄せて、語気を荒げずに厳密さを上げる5ステップを提案します。

  1. 目的を1文で断定する(例:「正答のみを1文字で返答せよ」)
  2. 役割を指定する(例:「あなたは採点官」)
  3. ルールと禁止事項を列挙(例:「理由説明・蛇足は一切不要。選択肢の文字以外の出力は禁止」)
  4. 評価基準を明文化(例:「選択肢の正解を最優先。曖昧なら最も根拠の強い定理に従う」)
  5. 出力形式を固定(例:「A/B/C/Dのいずれか1文字のみ」)

“丁寧だが厳密”の例:
「次の4択から正解の記号のみを1文字で返答してください。あなたは採点官です。説明文・前置き・謝罪は出力しないでください。曖昧な場合は一次情報の定義に従って最も妥当な選択肢を選んでください。出力はA/B/C/Dのいずれか1文字のみ。」

“失礼だが効果に寄せた”の構造を保ちつつ、言葉遣いは礼節を守る。これが“現場のベストバランス”です。

倫理と副作用:研究チームの注意喚起
研究者は、AI相手に乱暴な言い方を常態化させることが、人間同士のコミュニケーションに悪影響を及ぼす可能性を心配しています。「苛立ちをそのまま文字にする癖が、対人にもにじむのでは?」という懸念です。
「『効率は上がるかも』と感じても、日常の言葉が荒れたら本末転倒ですよね」

研究の限界:過度な一般化は禁物
・対象はGPT-4oと小規模セット(50問、MCQ中心)
・差は約4ポイントで、効果の実用的意義は文脈次第
・先行研究には“礼儀正しさが良い結果につながる”報告も存在
つまり「結論は文脈依存」。今回の示唆は“トーンが効く”であって、“無礼が最適”とは限りません。

まとめ:AIには“優しく厳密に”がちょうどいい
・数字が示したのは「言い回しが性能に効く」という事実
・日常では、語気ではなく“構造化された厳密さ”を足すのが賢明
・プロンプトは「目的→役割→ルール→評価→出力形式」で固める
「むやみにキツい言葉は要らない。『丁寧だけどブレない指示』で、AIの力を引き出しましょう」

出典:
Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy(短報/arXiv、2025年10月6日付)
AI Chatbots Give You Better Answers When You’re Mean to Them(Vice)
Being mean to ChatGPT increases its accuracy – but you may end up regretting it(Live Science)

目次