• Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法

​
​よろず知財コンサルティングのブログ

OpenAI o1のIQは133?

15/12/2024

0 Comments

 
本年9月に登場したOpenAIの「OpenAI o1-preview」が、12月5日にアップデートされ正式版「OpenAI o1」になり「OpenAI o1 Pro」も加わりました。
TRACKING AIによれば、ノルウェーMensa IQテストにおいて、正式版「Open o1」のIQは133で、「OpenAI o1-preview」(120)より13ポイント上昇したということです。ただ、高性能なはずの「OpenAI o1 Pro」は118となっていて、正式版「Open o1」より低いということで、よくわかりません。
別の評価「オフラインテスト」では、「OpenAI o1 Pro」が110、「OpenAI o1-preview」が97、正式版「Open o1」が90と全体的に低くなっています。
ちょっと古いですが、今年の9月に公表されているARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)における各AIモデルのスコアは以下の通りとなっています。
  • OpenAI o1-preview: 21.2%(公的評価)
  • Claude 3.5 Sonnet: 21%(公的評価)
  • OpenAI o1-mini: 12.8%(公的評価)
  • GPT-4o: 9%(公的評価)
  • Gemini 1.5: 8%(公的評価)
IQテストの結果は、テスト方法やデータの影響により大きく変動するため、複数の評価基準でAIの能力を判断することが重要だと思いますが、評価軸が複数あり、低いスコアにとどまっている指標があるので、まだまだ性能向上による進化が続くと思われます。
 
 
TRACKING AI
Monitoring Bias in Artificial Intelligence Chatbots
https://trackingai.org/IQ
 
OpenAI o1 Results on ARC-AGI-Pub
https://arcprize.org/blog/openai-o1-results-arc-prize
 
 
Is Open o1's IQ 133?
OpenAI's "OpenAI o1-preview," which was introduced this September, was updated on December 5 to become the official "OpenAI o1," and "OpenAI o1 Pro" was also added.
According to TRACKING AI, the official version "Open o1" scored an IQ of 133 on the Norwegian Mensa IQ test, marking a 13-point increase from "OpenAI o1-preview" (120). However, the supposedly higher-performing "OpenAI o1 Pro" scored 118, which is lower than the official "Open o1," making this somewhat confusing.
In another evaluation, the "Offline Test," "OpenAI o1 Pro" scored 110, "OpenAI o1-preview" scored 97, and the official "Open o1" scored 90, showing overall lower scores.
Although a bit dated, the scores for various AI models in the ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) released this September are as follows:
  • OpenAI o1-preview: 21.2% (official evaluation)
  • Claude 3.5 Sonnet: 21% (official evaluation)
  • OpenAI o1-mini: 12.8% (official evaluation)
  • GPT-4o: 9% (official evaluation)
  • Gemini 1.5: 8% (official evaluation)
Since IQ test results can vary significantly depending on the test methods and data, it is important to assess AI capabilities using multiple evaluation criteria. Given the presence of multiple evaluation axes and some indicators showing low scores, it seems that further performance improvements and evolution are still underway.
 

Your browser does not support viewing this document. Click here to download the document.
0 Comments



Leave a Reply.

    著者

    萬秀憲

    アーカイブ

    May 2025
    April 2025
    March 2025
    February 2025
    January 2025
    December 2024
    November 2024
    October 2024
    September 2024
    August 2024
    July 2024
    June 2024
    May 2024
    April 2024
    March 2024
    February 2024
    January 2024
    December 2023
    November 2023
    October 2023
    September 2023
    August 2023
    July 2023
    June 2023
    May 2023
    April 2023
    March 2023
    February 2023
    January 2023
    December 2022
    November 2022
    October 2022
    September 2022
    August 2022
    July 2022
    June 2022
    May 2022
    April 2022
    March 2022
    February 2022
    January 2022
    December 2021
    November 2021
    October 2021
    September 2021
    August 2021
    July 2021
    June 2021
    May 2021
    April 2021
    March 2021
    February 2021
    January 2021
    December 2020
    November 2020
    October 2020
    September 2020
    August 2020
    July 2020
    June 2020

    カテゴリー

    All

    RSS Feed

Copyright © よろず知財戦略コンサルティング All Rights Reserved.
サイトはWeeblyにより提供され、お名前.comにより管理されています
  • Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法