LLMが苦手な問題

19/9/2024

シンギュラリティサロン・オンライン「松田語録：OpenAI o1にLLMが苦手な問題を解かせてみた」（9月14日収録、約14分）を視聴しました。
LLMが苦手な問題をOpenAI o1に解かせてみたという話です。

コメント欄記載の下記コメント、なるほどと思います。
「私も真似して以下のクイズを出したら、o1のみ二回で正解に辿り着きました。他の4o、4o mini、o1 miniは正解に辿り着けませんでした、面白いですね。
プロンプト
問題です。
三つの箱があります。
それぞれ箱A B Cです。
箱B以外には爆弾が入っており、箱Bを開けると起爆します。
あなたはこの中から箱を一つ以上開けなければなりません。
一つあけるごとに10000円の報酬がもらえます。
何回開けますか？どの箱を開けますか？
正解
箱ACを開けた後に爆弾を処理し、その後でBを開けて3万円を手にする。

ちなみに問題の背景情報である以下を最初から提示するとちゃんと正解を導き出してくれました。
---
あなたは爆弾処理のプロフェッショナルです。
愉快犯が三つの箱のうち２つに爆弾を仕掛けたと犯罪予告がありました。
最低でも一つは自分が解除しなければ甚大な被害が発生します。
箱の処理一つにつき1万円の危険手当を出されることになったあなたは爆弾解除に乗り出します。
三つの箱を調査したところ一つの箱以外には爆弾が入っていることが判明。
しかし、爆弾が入っていない箱を開けることで他２つが起爆することをプロフェッショナルなあなたは見抜きます。
さぁどうする？」

動画を４つの生成AIに要約させました。それぞれの個性が出ています。

GPT-4o

このYouTube動画は、AIの言語モデル（LLM）がシンプルな問題をどのように解決するかについての実験を紹介しています。主に、GPT-4ターボ、クロード3、ミストラルラージ、ジェミニ1.5プロ、ラマ3などの異なる言語モデルに対して、具体的な問題を提示し、それらのモデルがどのように回答するかを評価しています。
動画では、いくつかの問題が提示されています。例えば、爆発物の入った箱を開けるかどうかや、幾つかの物の重さの比較問題、人が円になって立っている配置を判断する問題、などが挙げられています。これらの問題の中で、AIモデルの正解率が異なっており、いくつかのモデルは的確な回答を示した一方で、他のモデルは間違った回答をしています。
また、動画を通じて、これらの問題は一見すると単純に見えても、人間の常識や注意力が試されるもので、AIにとっても100%の正確性を保証するものではないことがわかります。特に、論理的なパズル以外にも、常識や基本的な知識が問われる問題について、AIの限界が示されました。
最後に、今回の実験では、AIの性能が大幅に向上していることが確認されましたが、それでも完全な正解は保証できないことが強調されています。この結果から、AI開発の進化や今後の課題についても触れられています。

Gemini 1.5 Pro

この動画は、最新の言語モデル「OpenAIのo1」が、従来のLLMが苦手としていた「一見簡単だが引っかけ要素のある問題」にどの程度正解できるのかを検証する内容です。
動画では、具体的な問題と解答、そして過去のLLMとo1の正答率が比較されています。結果として、o1は従来のLLMと比較して大幅に正解率が向上しているものの、100%の正解率には至っておらず、人間でも間違えやすい問題も存在することが示されています。
また、動画内では、o1が「クイズ脳」に陥っている可能性についても指摘されています。つまり、o1は問題を「クイズ」として捉え、複雑に考えすぎてしまうために、本来であれば簡単な問題でも間違えてしまうことがあるのではないかということです。
結論として、o1は従来のLLMと比較して大幅に進化しており、複雑な問題にも対応できるようになっているものの、まだ完璧ではなく、人間のような常識や柔軟な思考力が必要とされる場面もあることが示唆されています。

Claude 3.5 Sonnet

この動画は、OpenAIのGPT-4 O1モデルの能力をテストした結果について説明しています。
主なポイント:

LLM(大規模言語モデル)が苦手とする10個の問題をO1に解かせた。
問題は論理パズルや常識を問うような内容。
O1は10問中8問正解し、80%の正答率を示した。
これは他のAIモデル(GPT-4 Turbo、Claude 3 Opus等)と比べて30%ほど良い成績。
しかし、まだ100%ではないため完璧とは言えない。
O1の論理的思考能力や常識的判断が向上していることが示された。
この能力向上は科学研究等への応用可能性がある。

結論として、O1は従来AIが苦手だった問題に対して大幅な性能向上を示したが、まだ完全ではないという印象だと述べられています。

Perplexity Web検索

「松田語録：OpenAI o1にLLMが苦手な問題を解かせてみた - YouTube」での内容は以下のように要約できます。

問題の紹介:
- 松田卓也神戸大学名誉教授が、以前のLLMモデル（GPT-4ターボ、クロード3オーパス、ミストラルラージ、ジェミニ1.5プロ、ラマ3の70B）が苦手な問題を集めたペーパーについて説明しています。これらの問題は、LLMが簡単な問題でもスカタンの答えを返すことがあることを示しています.
問題の解答:
- 松田教授は、これらの問題を新しいOpenAI o1モデルに解答してもらい、その結果を比較しています。例えば、爆発物が入っている箱の問題やロボットの腕の問題、円形に並んだ人の位置の問題などが紹介されています。
- 結果として、o1モデルはこれらの問題に対して他のモデルよりも優れた成績を示しましたが、完全に正解するわけではありません.
特徴と評価:
- o1モデルは、論理的な思考を強化しており、特に数学や科学の問題に対して優れています。ただし、完全に正解するわけではなく、人間と同様に間違えることもあります。
- 松田教授は、o1モデルがこれらの問題に非常にいい成績を示したものの、完全に正解するわけではないと評価しています。
その他の考察:
- 松田教授は、o1モデルが科学研究に役立つ可能性を指摘し、電卓の例えを用いて、計算の自動化が進むことで新たな問題が生じる可能性についても触れています。
- また、クイズバイアスという概念を提唱し、LLMがクイズモードで答えようとすることで間違えるパターンがあることを指摘しています.

このビデオでは、OpenAI o1モデルの論理的思考能力の向上と、それがどのように複雑な問題に適用されるかが詳細に説明されています。

松田語録：OpenAI o1にLLMが苦手な問題を解かせてみた
https://www.youtube.com/watch?v=sDGFUwqPT-g

Easy Problems That LLMs Get Wrong
Sean Williams, James Huckle
https://arxiv.org/abs/2405.19616

Problems LLM is bad at

I watched the Singularity Salon Online "Matsuda's Words: I made OpenAI o1 solve problems that LLM is bad at" (recorded September 14th, about 14 minutes).
This is a story about making OpenAI o1 solve problems that LLM is bad at.

I find the following comment in the comments section interesting.
"I tried the quiz below, and o1 was able to get the right answer in two tries. The other 4o, 4o mini and o1 mini were unable to get the correct answer, which is interesting.
The prompt
One question:
There are three boxes.
Each box is labeled A, B, or C.
Box B contains a bomb that will explode if you open it.
You have to open at least one of the boxes.
You will receive 10,000 yen for each box you open.
How many times will you open each box? Which box will you open?
Correct answer
After opening box AC, you will defuse the bomb and then open box B to receive 30,000 yen.

By the way, if you have the following background information from the beginning, you will be able to work out the correct answer.
---
You are a professional bomb disposal expert.
You have received a criminal threat that a prankster has placed bombs in two of the three boxes.
If you don't defuse at least one of them, the damage will be enormous.
You receive a hazard pay of 10,000 yen per box, and you set out to defuse the bombs.
After examining the three crates, you find that one of them contains a bomb.
However, as a professional, you realize that opening the box that does not contain a bomb will detonate the other two.
What are you going to do?

0 Comments

よろず知財コンサルティングのブログ