シンギュラリティサロン・オンライン「松田語録:OpenAI o1にLLMが苦手な問題を解かせてみた」(9月14日収録、約14分)を視聴しました。
LLMが苦手な問題をOpenAI o1に解かせてみたという話です。 コメント欄記載の下記コメント、なるほどと思います。 「私も真似して以下のクイズを出したら、o1のみ二回で正解に辿り着きました。他の4o、4o mini、o1 miniは正解に辿り着けませんでした、面白いですね。 プロンプト 問題です。 三つの箱があります。 それぞれ箱A B Cです。 箱B以外には爆弾が入っており、箱Bを開けると起爆します。 あなたはこの中から箱を一つ以上開けなければなりません。 一つあけるごとに10000円の報酬がもらえます。 何回開けますか?どの箱を開けますか? 正解 箱ACを開けた後に爆弾を処理し、その後でBを開けて3万円を手にする。 ちなみに問題の背景情報である以下を最初から提示するとちゃんと正解を導き出してくれました。 --- あなたは爆弾処理のプロフェッショナルです。 愉快犯が三つの箱のうち2つに爆弾を仕掛けたと犯罪予告がありました。 最低でも一つは自分が解除しなければ甚大な被害が発生します。 箱の処理一つにつき1万円の危険手当を出されることになったあなたは爆弾解除に乗り出します。 三つの箱を調査したところ一つの箱以外には爆弾が入っていることが判明。 しかし、爆弾が入っていない箱を開けることで他2つが起爆することをプロフェッショナルなあなたは見抜きます。 さぁどうする?」 動画を4つの生成AIに要約させました。それぞれの個性が出ています。 GPT-4o このYouTube動画は、AIの言語モデル(LLM)がシンプルな問題をどのように解決するかについての実験を紹介しています。主に、GPT-4ターボ、クロード3、ミストラルラージ、ジェミニ1.5プロ、ラマ3などの異なる言語モデルに対して、具体的な問題を提示し、それらのモデルがどのように回答するかを評価しています。 動画では、いくつかの問題が提示されています。例えば、爆発物の入った箱を開けるかどうかや、幾つかの物の重さの比較問題、人が円になって立っている配置を判断する問題、などが挙げられています。これらの問題の中で、AIモデルの正解率が異なっており、いくつかのモデルは的確な回答を示した一方で、他のモデルは間違った回答をしています。 また、動画を通じて、これらの問題は一見すると単純に見えても、人間の常識や注意力が試されるもので、AIにとっても100%の正確性を保証するものではないことがわかります。特に、論理的なパズル以外にも、常識や基本的な知識が問われる問題について、AIの限界が示されました。 最後に、今回の実験では、AIの性能が大幅に向上していることが確認されましたが、それでも完全な正解は保証できないことが強調されています。この結果から、AI開発の進化や今後の課題についても触れられています。 Gemini 1.5 Pro この動画は、最新の言語モデル「OpenAIのo1」が、従来のLLMが苦手としていた「一見簡単だが引っかけ要素のある問題」にどの程度正解できるのかを検証する内容です。 動画では、具体的な問題と解答、そして過去のLLMとo1の正答率が比較されています。結果として、o1は従来のLLMと比較して大幅に正解率が向上しているものの、100%の正解率には至っておらず、人間でも間違えやすい問題も存在することが示されています。 また、動画内では、o1が「クイズ脳」に陥っている可能性についても指摘されています。つまり、o1は問題を「クイズ」として捉え、複雑に考えすぎてしまうために、本来であれば簡単な問題でも間違えてしまうことがあるのではないかということです。 結論として、o1は従来のLLMと比較して大幅に進化しており、複雑な問題にも対応できるようになっているものの、まだ完璧ではなく、人間のような常識や柔軟な思考力が必要とされる場面もあることが示唆されています。 Claude 3.5 Sonnet この動画は、OpenAIのGPT-4 O1モデルの能力をテストした結果について説明しています。 主なポイント:
Perplexity Web検索 「松田語録:OpenAI o1にLLMが苦手な問題を解かせてみた - YouTube」での内容は以下のように要約できます。
松田語録:OpenAI o1にLLMが苦手な問題を解かせてみた https://www.youtube.com/watch?v=sDGFUwqPT-g Easy Problems That LLMs Get Wrong Sean Williams, James Huckle https://arxiv.org/abs/2405.19616 Problems LLM is bad at I watched the Singularity Salon Online "Matsuda's Words: I made OpenAI o1 solve problems that LLM is bad at" (recorded September 14th, about 14 minutes). This is a story about making OpenAI o1 solve problems that LLM is bad at. I find the following comment in the comments section interesting. "I tried the quiz below, and o1 was able to get the right answer in two tries. The other 4o, 4o mini and o1 mini were unable to get the correct answer, which is interesting. The prompt One question: There are three boxes. Each box is labeled A, B, or C. Box B contains a bomb that will explode if you open it. You have to open at least one of the boxes. You will receive 10,000 yen for each box you open. How many times will you open each box? Which box will you open? Correct answer After opening box AC, you will defuse the bomb and then open box B to receive 30,000 yen. By the way, if you have the following background information from the beginning, you will be able to work out the correct answer. --- You are a professional bomb disposal expert. You have received a criminal threat that a prankster has placed bombs in two of the three boxes. If you don't defuse at least one of them, the damage will be enormous. You receive a hazard pay of 10,000 yen per box, and you set out to defuse the bombs. After examining the three crates, you find that one of them contains a bomb. However, as a professional, you realize that opening the box that does not contain a bomb will detonate the other two. What are you going to do?
0 Comments
Leave a Reply. |
著者萬秀憲 アーカイブ
October 2024
カテゴリー |