昨今、AI技術の進歩により、デジタル業界ではAIを用いて仕事をすることが珍しくなくなってきました。
しかし、AIを盲目的に信頼するのは注意してください。その活躍具合に比例して、誤った情報を提供する「ハルシネーション」という現象の危険性も大きくなっています。
この記事では、AIが生み出す現象「ハルシネーション」について、概要や原因、対策について解説します。
昨今、AI技術の進歩により、デジタル業界ではAIを用いて仕事をすることが珍しくなくなってきました。
しかし、AIを盲目的に信頼するのは注意してください。その活躍具合に比例して、誤った情報を提供する「ハルシネーション」という現象の危険性も大きくなっています。
この記事では、AIが生み出す現象「ハルシネーション」について、概要や原因、対策について解説します。
目次
ハルシネーションとは、人工知能(以下、AI)が事実とは異なる情報を生成する現状のことです。AIが学習データに基づかず、幻覚(=ハルシネーション)を見ているかのように、事実とは異なる内容の情報を提示するため、このように呼ばれています。
ハルシネーションには2つの種類があります。
1つ目は、Intrinsic Hallucinations(内部的、内在的ハルシネーション)といって、学習データに含まれる情報とは異なる内容を出力する現象です。これは、AIがデータの解釈を誤るという、AIの学習能力に問題があるパターンになります。
たとえば、ユーザーがある医学用語について説明を求めた場合、AIは学習データ内で頻出していた別の知識を誤って提示することが挙げられます。
学習データの質や量が不十分な場合に起こりやすいとされています。
2つ目は、Extrinsic Hallucinations(外部的、外在的ハルシネーション)です。データに存在しない情報をAIが「つくりあげて」しまう現象です。
たとえば、ユーザーが歴史に関する質問をした場合に、もっともらしい固有名詞をつかって存在しない出来事をつくりあげて回答してしまうことが挙げられます。
ハルシネーションは、AIの学習プロセスやデータの質など、複数の要因から発生します。ハルシネーションが起こったときに適切な対策を講じられるよう、原因について理解しておきましょう。
ここでは、大きく4つの可能性について紹介します。
ハルシネーションの発生原因の1つに、古いデータを参考にすることが挙げられます。
たとえば、学習データが10年以上前のものしかなかったとします。この場合、ユーザーが最新の動向について質問しても、10年以上前のデータに基づいて回答するしかなく、正しい情報が出力されません。結果的に「事実と異なる情報の提示」=ハルシネーションが起こってしまいます。
次に考えられる原因として、誤ったデータを参考に学習したということが挙げられます。
インターネット上の信憑性に乏しい情報や、教師データに混入したノイズなどによって引き起こされます。
誤った情報をもとに学習すれば、AIが導き出す結論は当然誤ったものとなります。
学習データの少なさにより、誤った情報を出力する可能性もあります。
たとえば、りんごの写真を3枚見せて、次にトマトの写真を見せたとします。りんごの写真を3枚見ただけでは、漠然と「赤くて丸いもの」としか認識できていないため、トマトの写真を見て「りんご」と回答する可能性があるのです。
4つ目の原因として、プロンプト(ユーザーからの入力)が曖昧・不明確であると、AIは正しく解釈できず、とりあえずそれらしい単語をつかって出力します。
たとえば、「太陽系で最も大きい月は?」という質問をしたとします。月は惑星の衛生のことであり、この場合木星の衛星であるガニメデが該当ですが、プロンプトの「月」は、日常生活で多用する、「(地球の衛生である)月」との違いをはっきりさせていないため、AIは地球の月を回答する可能性があります。
ハルシネーションは、個人、企業、さらには社会全体に影響を及ぼすリスクを伴います。特に、仕事でAIを利用する場合は、リスクを防ぐためにしっかり理解しておきましょう。
AIが生成した誤情報がインターネットやSNSを通じて広がることで、フェイクニュースの拡散や社会的混乱を引き起こす可能性があります。
たとえば、誤った医療情報が拡散すれば、健康被害や不安を助長する結果となります。このように、ハルシネーションは社会全体に深刻な影響を及ぼし得ます。
企業や個人がAIの出力内容を信じて意思決定を行う場合、ハルシネーションが誤った判断を招きます。
これにより、経済的損失や信頼の失墜、プロジェクトの失敗といった結果が生じる可能性があります。特に、財務や戦略に関わる重要な意思決定での影響は甚大です。
企業がAIを活用する中で誤情報を顧客やパートナーに提供した場合、ブランドイメージの毀損や法的責任を問われる事態が起こり得ます。また、社会的な信頼を損ねることで、AI技術全体への不信感が高まり、技術の普及が妨げられる恐れもあります。
この章では、ハルシネーションが実際に起こった例について紹介します。
1つ目の事例は、Metaの「Galactica」です。Galacticaは、論文、教科書、百科事典などのデータを学習し、科学的な質問に答えたり文献調査ができたりするAIとして、2022年に公開されました。しかし、公開後しばらくして「回答文にデタラメな内容や人種差別的な表現が含まれている」と批判が相次ぎ、Meta社は公開を中止しました。
2つ目の事例は、Googleの「Bard」です。Bardは、2023年に発表された会話型AIサービスで、自然な会話を得意とする大規模言語モデルLaMDAをベースにしています。
しかし、事実と異なる回答をしたケースが多く見つかり、AI開発の今後を懸念する声も上がりました。
Bardは2024年2月にGeminiと名を改め、ChatGPTのような生成系AIとして現在も提供されています。
画像引用:Gemini
Geminiについて詳しく知りたい方は、Google Japan BLog「Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表」をご覧ください。
ここまで、ハルシネーションの危険性について説明してきましたが、AIは使い方を謝らなければ有用なツールです。この章では、AIを安全かつ有効に活用するために、ハルシネーションが発生する可能性、発生しても対処する方法について紹介します。
AIを利用するうえで大切なことは、ファクトチェックです。
AIが生成した情報を鵜呑みにせず、信頼できる情報源を活用して検証することが重要です。特に、重要な意思決定や発表に関するデータであれば、行政の公式データや専門家の意見などと照合してみましょう。
プロンプトを工夫することも、有効な手段です。
指示を具体的にしたり、制約条件・例示を与えるなどがこれにあたります。
▼ハルシネーションを防ぐプロンプトの例
「小学生が理解できるレベルで〇〇について教えてください」
「最新のデータに基づいて」
「〇〇の中で最も××なものは?」
「公的機関の情報に基づいて」
「根拠となる情報を示しながら」
ここまで、AIの問題点としてハルシネーションを紹介しましたが、これ以外にもAIを利用するうえで気をつけるべき問題点があります。
AIは学習データの性質に依存しているため、データに偏りがある場合、それが回答内容にも
反映される可能性があります。たとえば、人種や性別に基づく差別的な情報が含まれていれば、AIはそれらを正当化するような回答をするかもしれません。
AIバイアスを防ぐためには、データの多様性と公平性を確保することが大切です。
ユーザーにとって、プライバシーとセキュリティも問題になります。AIの開発・運用においては、個人情報が扱われることもあるため、それらが不適切に利用されるリスクがあります。
たとえば、顧客データを活用したAIサービスのセキュリティ対策が十分でない場合、不正アクセスによる情報漏えいがあるかもしれません。
そのため、AI開発界では、企業に対してデータ管理・共有に関する厳格な姿勢が求められています。
ハルシネーションは、AIが誤った情報を生成する現象のことです。
学習データの不正確さや学習不足、不適切なプロンプトなどが原因で発生すると考えられており、個人や企業の意思決定を誤った方向に導き、社会における混乱や信頼喪失を招くリスクがあります。
対策としては、学習データの質や量の改善、ユーザー自身の情報精査などをする必要があります。具体的な指示や例示を与えるといったプロンプトの工夫も効果的です。
AIを活用する際には、その限界を認識し、補助的なツールとして利用する姿勢が求められます。ハルシネーションのリスクを抑え、安全で信頼性の高いAI利用を目指すため、技術的改善とユーザーのリテラシー向上の双方が鍵となります。
ハルシネーションが起こる原因には、AI本体以外にも、データや質問などがあります。
具体的には、古い・不正確な学習データ、学習量の不足、曖昧・不明瞭な質問などが原因です。
詳しくは「ハルシネーションの発生原因」の章をご覧ください。