アジア太平洋機械翻訳協会(AAMT)、日本特許情報機構(Japio)が主催の「第8回特許情報シンポジウム」が2024年11月7日にオンライン開催され、NTT コミュニケーション科学基礎研究所 永田 昌明 氏が「JaParaPat: 大規模日英特許対訳コーパス」という講演を行いました。 『2000 年から 2021 年に日本特許庁 (JPO) と米国特許商標庁 (USPTO) から公開された特許出願から約 3億文対の日英対訳コーパスを作成した。欧州特許庁(EPO) が管理する書誌データベース DOCDB からパテントファミリーに基づいて対訳文書対を抽出し、機械翻訳に基づく文対応を用いて対訳文対を抽出した。Web から収集した約 2000 万文対の対訳データJParaCrawl に対して、特許出願から収集した約 3 億文対の対訳データを追加することにより、日英特許翻訳の精度が約 20BLEU ポイント向上した。』という内容がわかりやすく説明されています。 第8回特許情報シンポジウム https://aamtjapio.com/symposium.html 「JaParaPat: 大規模日英特許対訳コーパス」講演資料 https://aamtjapio.com/kenkyu/files/symposium2024/nagata.pdf JaParaPat: 大規模日英特許対訳コーパス 言語処理学会 第30回年次大会 発表論文集(2024年3月) https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-23.pdf Large-Scale Japanese-English Patent Parallel Corpus The '8th Patent Information Symposium,' hosted by the Asia-Pacific Association for Machine Translation (AAMT) and the Japan Patent Information Organization (Japio), was held online on November 7, 2024. Masaki Nagata from NTT Communication Science Laboratories delivered a lecture titled 'JaParaPat: Large-Scale Japanese-English Patent Parallel Corpus.' He explained in a clear and accessible manner, 'We created a corpus of approximately 300 million Japanese-English sentence pairs from patent applications published by the Japan Patent Office (JPO) and the United States Patent and Trademark Office (USPTO) between 2000 and 2021. Using the bibliographic database DOCDB managed by the European Patent Office (EPO), we extracted parallel document pairs based on patent families, and further extracted parallel sentence pairs based on machine translation alignment. By adding approximately 300 million sentence pairs collected from patent applications to the JParaCrawl dataset, which includes around 20 million parallel sentence pairs gathered from the web, the accuracy of Japanese-English patent translation improved by roughly 20 BLEU points.' Your browser does not support viewing this document. Click here to download the document.
0 Comments
Leave a Reply. |
著者萬秀憲 アーカイブ
December 2024
カテゴリー |