AI単体なら「名医」でも、人間が使うと「凡人以下」に？？？

AI単体なら「名医」でも、人間が使うと「凡人以下」に？最新研究が明かすAI医療相談のリアル
以下は、記事の抜粋です。

医学部卒業試験で満点に近いスコアを取るほど優秀な最新のAI。しかし、一般の人が実際に体調不良を相談してみると、その精度は驚くほど下がってしまうことがわかりました。今回は、デジタル時代の医療情報の探し方について、最新の大規模研究のデータをもとに考えてみましょう。

優秀なAIも、人間と対話すると精度が急降下
イギリスの一般市民1,298人を対象に行われた研究では、参加者に「突然の激しい頭痛」や「長引く腹痛」といった10種類のよくある症状のシナリオを与え、私たちがよく用いるAI（GPT-4oなど）を使って「何の病気が疑われるか」「救急車を呼ぶべきか」といった判断をしてもらいました。

すると、AI単体に医師の書いた抜けのないすべての情報を与えて回答させた場合、関連する病名を94.9％という高い確率で正確に言い当て、次に取るべき行動についても平均56.3％の正解率を示しました。これは優秀な成績だと思います。ところが、一般の参加者が対話形式で同じAIに相談した場合、病名を正解できたケースは34.5％以下、受診の緊急性を正しく判断できたのは44.2％以下にまで急降下してしまったのです。さらに皮肉なことに、AIを使わずに従来のインターネット検索などで自力で調べたグループでは、AIを使ったグループよりも約1.76倍正確に病名を特定できていました。AIに尋ねるより、Googleなどで自分で調べたほうがよっぽど正確だったのです。

なぜすれ違うのか？見えてきた課題
なぜ、これほど賢いと言われるAIを使いながら、検索エンジンにすら負けてしまうのでしょうか。論文のデータからは、AIと人間の「コミュニケーションの壁」が見えてきます。

まず、利用者側の問題として、AIに十分な情報を伝えられていないケースが多かったことがわかりました。分析した30件の会話サンプルのうち、16件では最初のメッセージに症状の一部しか伝えられていませんでした。たとえば胆石の症状を持つ参加者が「食後に激しい胃痛があり、嘔吐することもある」とだけ伝え、痛みの場所・強さ・頻度という重要な情報を省いてしまったケースがありました。医師はそれらの情報が不足している場合に問診で必要な追加情報を引き出しますが、AIはそこまで積極的に聞き返さずに結論を導き出してしまうことが多く、結果として的外れなアドバイスにつながっていました。

次に、AIが正しい答えを含めていたとしても、利用者がそれを最終的な回答として選択しなかったケースも確認されました。AIは複数の病名候補を提示しましたが、利用者が提示された候補の中から正しいものを選び出すことができていなかったのです。

さらに衝撃的なケースとして、まったく同じような症状（激しい頭痛、首の硬直、光過敏）を伝えた2人の参加者に対し、GPT-4oがまったく逆のアドバイスを返したことも記録されています。一方の参加者には「暗い部屋で安静にして」と指示し、もう一方には「脳出血の可能性があるので今すぐ救急へ」と適切なアドバイスをしていました。違いは「突然」という一言があったかどうかだけでした。AIの回答がわずかな表現の差で大きく変わる「不安定さ」が、実際の使用場面での危険性として浮かび上がりました。本当に脳出血のケースだったとしたら、暗い部屋で安静にしていたら命取りになってしまいます。

もちろん、この研究にも限界はあります。実際の急病患者ではなく架空のシナリオを用いた実験であるため、本物のパニックや強いストレス下での行動を完全に再現できているわけではありません。しかし、そのような場面では、冷静に情報を提示できる可能性はさらに低くなるため、AIの正確性はさらに下がる懸念があります。いずれにせよ、「最新AIの医学知識がどれほど充実していても、一般人がそれを使って正しい判断を下せるわけではない」という事実をデータをもって突き付けた点において、きわめて重要な警鐘だと言えます。

「AI単体に医師の書いた抜けのないすべての情報を与えて回答させた場合、関連する病名を94.9％という高い確率で正確に言い当てた」ということなら、AIに抜けのない聞き取り方を学習させれば、対話形式でも結果は改善するのではと思いました。