• Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法

​
​よろず知財コンサルティングのブログ

大規模言語モデル(LLM)の開発:第38回人工知能学会全国大会

2/6/2024

0 Comments

 
東京工業大学情報理工学院の岡崎直観教授が、5月28~31日に開催された「第38回人工知能学会全国大会」で、大規模言語モデル(LLM)の開発に関する現状や課題について講演されましたが、その資料を公開されています。
資料は、全85ページ、冒頭で「大規模言語モデルの概要」について紹介した後に「事前学習・継続事前学習」「指示(インストラクション)チューニング」「アライメント」「評価」をそれぞれ説明した全4部で構成されています。
 
 
2024年度 人工知能学会全国大会(第38回)チュートリアル講演1
大規模言語モデルの開発
東京工業大学情報理工学院の岡崎直観教授
https://speakerdeck.com/chokkan/jsai2024-tutorial-llm
 
 
Development of Large Language Models (LLM): The 38th Annual Conference of the Japanese Society for Artificial Intelligence
Professor Naoaki Okazaki from the School of Computing at the Tokyo Institute of Technology delivered a lecture on the current status and challenges of developing large language models (LLM) at the 38th Annual Conference of the Japanese Society for Artificial Intelligence, held from May 28 to 31. The presentation materials have been made available to the public.
 
The materials comprise a total of 85 pages. After introducing an overview of large language models at the beginning, the presentation is divided into four sections: "Pre-training and Continued Pre-training," "Instruction Tuning," "Alignment," and "Evaluation."
 
 
ChatGPT 4o

okazaki-jsai2024-tutorial.pdf
PDF
この講演資料を要約してください。
ChatGPT
講演資料「大規模言語モデルの開発」の要約
講師
岡崎直観 (東京工業大学)
内容
  1. 大規模言語モデルの概要 (15分)
    • 言語モデルの基本的な概念とその規模について説明。
    • パラメータ数や学習データの量、学習環境について言及。
  2. 事前学習・継続事前学習 (20分)
    • 言語モデルの事前学習のプロセスを詳細に解説。
    • Transformerアーキテクチャの使用と学習データの選定。
    • ニューラルネットワークのスケーリング則とChinchilla則について。
  3. 指示チューニング (15分)
    • 指示チューニングの概念とその重要性。
    • 自然言語処理タスクにおけるデータの変換方法と応用例。
    • 自動指示チューニングデータの構築手法(Self-instruct)について。
  4. アライメント (15分)
    • モデルの応答の質を向上させるためのアライメント技術。
    • 人間の選好データを利用したアライメントの具体的な方法。
    • ハルシネーションの防止と正確性向上のための取り組み。
  5. 評価 (20分)
    • 大規模言語モデルの評価方法とその課題。
    • 正確性、適切性、反応速度などの評価指標について。
    • 最近の研究成果と評価データセットの紹介。
主なトピック
  • 大規模言語モデルの技術的背景
  • モデルのトレーニングプロセスと必要なリソース
  • モデルの応用と評価の実際
  • 日本国内外における大規模言語モデルの開発状況と事例
この講演は、特に言語モデルの基盤アーキテクチャや利活用の研究についての理解を前提としています。時間の制約から、一部の詳細な技術説明は範囲外とされていますが、全体としては大規模言語モデルの開発プロセスとその応用に関する包括的な知識を提供しています。
「日本国内外における大規模言語モデルの開発状況と事例」について詳細に教えてください。
ChatGPT
メモリを更新しました
日本国内外における大規模言語モデルの開発状況と事例
日本国内での開発状況
1. オープンな大規模言語モデル (2022年11月以前)
  • BERT (京都大学, 2019年4月)
    • 日本語版のBERTモデルを開発し、自然言語処理タスクにおける性能向上を実現。
  • BERT (東北大学, 2019年11月)
    • 東北大学でも独自に日本語BERTを開発し、言語モデルの精度向上に寄与。
  • BERT (NICT, 2020年3月)
    • 国立情報学研究所が開発した日本語BERTモデル。
  • GPT (ABEJA, 2022年6月)
    • 日本の企業ABEJAがGPTモデルを日本語対応でリリース。
  • GPT-2 (Rinna, 2021年4月)
    • Rinnaが開発した日本語対応のGPT-2モデル。
  • GPTNeo (Yellowback, 2021年12月)
    • YellowbackがGPTNeoを日本語対応でリリース。
2. 2022年11月以降のオープンな大規模言語モデル
  • nlp-waseda/gpt2-xl-japanese (早稲田大学, 2022年11月30日)
    • 1.5Bパラメータの日本語GPT-2モデル。
  • okazaki-lab/japanese-gpt2-medium-unidic (東京工業大学, 2023年3月16日)
    • 東京工業大学岡崎研究室が開発した日本語GPT-2モデル。
  • retrieva-jp/t5-small-short (Retrieva, 2023年5月12日)
    • T5モデルを日本語対応でリリース。
  • cyberagent/open-calm-7b (CyberAgent, 2023年5月17日)
    • CyberAgentが開発した日本語対応の大規模言語モデル。
  • rinna/japanese-gpt-neox-3.6b-instruction-ppo (Rinna, 2023年5月31日)
    • 3.6Bパラメータの日本語GPT-NeoXモデル。
  • line-corporation/japanese-large-lm-3.6b-instruction-sft (LINE, 2023年8月18日)
    • LINEが開発した3.6Bパラメータの日本語モデル。
  • tokyotech-llm/Swallow-70b-hf (東京工業大学, 2023年12月19日)
    • 東京工業大学と産総研が開発した70Bパラメータの大規模言語モデル。
3. サポートプログラムと研究コミュニティ
  • 経済産業省や産総研、Amazon Web Services (AWS) などが計算資源を提供し、LLM構築を支援するプログラムを実施しています。
  • 国立情報学研究所(NII)は2024年4月にLLM研究開発センターを開設し、研究コミュニティの盛り上がりを牽引しています。
国外での開発状況
1. MetaのLlama 3
  • 大規模言語モデルLlama 3のリリースにより、多くのパラメータ(8Bおよび70B)で訓練されたモデルを提供。
  • 訓練データ量は15Tトークンで、Chinchilla則に基づく計算最適な言語モデルのパラメータ数、計算量、訓練データ量を維持しています。
2. GoogleのGemini
  • Massive Multitask Language Understanding (MMLU)タスクにおいて、人間の専門家の正解率(89.8%)を超える性能を実現しました。
  • 最新の研究成果をarXivで発表し、自然言語処理の発展に貢献しています。
3. MicrosoftのPhi-3
  • 7Bおよび14Bパラメータのモデルを約4.8Tトークンで訓練し、携帯電話上で動作する高性能な言語モデルを提供しています。
4. その他の重要なプロジェクト
  • Stanford Alpaca: Self-instructを参考に指示チューニングデータを構築し、LLaMA 7Bをファインチューニングしたモデル。
  • WildChat: ChatGPTとの対話データを収集し、モデルの性能を評価・向上させるためのデータセット。
これらの事例からわかるように、日本国内外での大規模言語モデルの開発は非常に活発であり、それぞれのモデルが異なるアプローチで言語理解や生成能力の向上を目指しています。また、研究コミュニティや政府、企業が協力して計算資源を提供し、モデルの性能を向上させるための取り組みが行われています。

0 Comments



Leave a Reply.

    著者

    萬秀憲

    アーカイブ

    May 2025
    April 2025
    March 2025
    February 2025
    January 2025
    December 2024
    November 2024
    October 2024
    September 2024
    August 2024
    July 2024
    June 2024
    May 2024
    April 2024
    March 2024
    February 2024
    January 2024
    December 2023
    November 2023
    October 2023
    September 2023
    August 2023
    July 2023
    June 2023
    May 2023
    April 2023
    March 2023
    February 2023
    January 2023
    December 2022
    November 2022
    October 2022
    September 2022
    August 2022
    July 2022
    June 2022
    May 2022
    April 2022
    March 2022
    February 2022
    January 2022
    December 2021
    November 2021
    October 2021
    September 2021
    August 2021
    July 2021
    June 2021
    May 2021
    April 2021
    March 2021
    February 2021
    January 2021
    December 2020
    November 2020
    October 2020
    September 2020
    August 2020
    July 2020
    June 2020

    カテゴリー

    All

    RSS Feed

Copyright © よろず知財戦略コンサルティング All Rights Reserved.
サイトはWeeblyにより提供され、お名前.comにより管理されています
  • Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法