• Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法

​
​よろず知財コンサルティングのブログ

大規模日英特許対訳コーパス

11/11/2024

0 Comments

 
アジア太平洋機械翻訳協会(AAMT)、日本特許情報機構(Japio)が主催の「第8回特許情報シンポジウム」が2024年11月7日にオンライン開催され、NTT コミュニケーション科学基礎研究所 永田 昌明 氏が「JaParaPat: 大規模日英特許対訳コーパス」という講演を行いました。
『2000 年から 2021 年に日本特許庁 (JPO) と米国特許商標庁 (USPTO) から公開された特許出願から約 3億文対の日英対訳コーパスを作成した。欧州特許庁(EPO) が管理する書誌データベース DOCDB からパテントファミリーに基づいて対訳文書対を抽出し、機械翻訳に基づく文対応を用いて対訳文対を抽出した。Web から収集した約 2000 万文対の対訳データJParaCrawl に対して、特許出願から収集した約 3 億文対の対訳データを追加することにより、日英特許翻訳の精度が約 20BLEU ポイント向上した。』という内容がわかりやすく説明されています。

 
第8回特許情報シンポジウム
https://aamtjapio.com/symposium.html
「JaParaPat: 大規模日英特許対訳コーパス」講演資料
https://aamtjapio.com/kenkyu/files/symposium2024/nagata.pdf
 
JaParaPat: 大規模日英特許対訳コーパス
言語処理学会 第30回年次大会 発表論文集(2024年3月)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-23.pdf
 
 
 
Large-Scale Japanese-English Patent Parallel Corpus
 
The '8th Patent Information Symposium,' hosted by the Asia-Pacific Association for Machine Translation (AAMT) and the Japan Patent Information Organization (Japio), was held online on November 7, 2024. Masaki Nagata from NTT Communication Science Laboratories delivered a lecture titled 'JaParaPat: Large-Scale Japanese-English Patent Parallel Corpus.'
He explained in a clear and accessible manner, 'We created a corpus of approximately 300 million Japanese-English sentence pairs from patent applications published by the Japan Patent Office (JPO) and the United States Patent and Trademark Office (USPTO) between 2000 and 2021. Using the bibliographic database DOCDB managed by the European Patent Office (EPO), we extracted parallel document pairs based on patent families, and further extracted parallel sentence pairs based on machine translation alignment. By adding approximately 300 million sentence pairs collected from patent applications to the JParaCrawl dataset, which includes around 20 million parallel sentence pairs gathered from the web, the accuracy of Japanese-English patent translation improved by roughly 20 BLEU points.'

Your browser does not support viewing this document. Click here to download the document.
0 Comments



Leave a Reply.

    著者

    萬秀憲

    アーカイブ

    May 2025
    April 2025
    March 2025
    February 2025
    January 2025
    December 2024
    November 2024
    October 2024
    September 2024
    August 2024
    July 2024
    June 2024
    May 2024
    April 2024
    March 2024
    February 2024
    January 2024
    December 2023
    November 2023
    October 2023
    September 2023
    August 2023
    July 2023
    June 2023
    May 2023
    April 2023
    March 2023
    February 2023
    January 2023
    December 2022
    November 2022
    October 2022
    September 2022
    August 2022
    July 2022
    June 2022
    May 2022
    April 2022
    March 2022
    February 2022
    January 2022
    December 2021
    November 2021
    October 2021
    September 2021
    August 2021
    July 2021
    June 2021
    May 2021
    April 2021
    March 2021
    February 2021
    January 2021
    December 2020
    November 2020
    October 2020
    September 2020
    August 2020
    July 2020
    June 2020

    カテゴリー

    All

    RSS Feed

Copyright © よろず知財戦略コンサルティング All Rights Reserved.
サイトはWeeblyにより提供され、お名前.comにより管理されています
  • Home
  • Services
  • About
  • Contact
  • Blog
  • 知財活動のROICへの貢献
  • 生成AIを活用した知財戦略の策定方法
  • 生成AIとの「壁打ち」で、新たな発明を創出する方法