【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

2.6K Views

June 09, 23

#deep learning #TrOCR #Transformer-based OCR #Handwriting Recognition #Fine-tuning #Machine Learning Model

スライド概要

2023/6/9
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 西﨑稜平

書誌情報 Title : TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models Author : Minghao Li1*, Tengchao Lv2, Jingye Chen2, Lei Cui2, Yijuan Lu2, Dinei Florencio2, Cha Zhang2, Zhoujun Li1, Furu Wei2 URL : https://arxiv.org/abs/2109.10282 2/14

https://arxiv.org/abs/2109.10282

TrOCRとは 3/14 手書き文字認識タスクを行うことを目的とした Transformer-basedモデルを構築し、Pretrainingしたもの《モデルの特徴》・Encoderで画像の特徴を捉え、Decoderの言語モデルを利用してどの文字かを判定する《outputの特徴》・これまでのCNNベースのモデルよりも入力画像に特有の誘導バイアスが小さい

モデル構造(概略) 4/14 Encoder Decoder Model構造 BEiT(DeiT) RoBERTa Input Image Text

モデル構造(概略) 検出結果の出力を行う時に利用する・Byte Pair Encoding 単語を細かく分割し、未知語を未知語としないために工夫 https://yolo-kiyoshi.com/2020/10/19/post-2315/ ・SentencePiece 単語の分割点を学習 5/14

https://yolo-kiyoshi.com/2020/10/19/post-2315/

モデル選択 (pretrained only by SROIE dataset) 6/14

モデルの学習 (pretrained some datasets) 7/14 ・Pretrained Model 既存の事前学習済みEncoder, Decoder ・Data Augmentation IAM Handwriting datasetに対するdata augmentation https://www.codexa.net/data_augmentation_python_keras/ ・First-Stage Pretrain SROIE dataset, IAM Handwriting datasetから数億のデータを抽出し、 Fine-tuning ・Second-Stage Pretrain 同 datasetから数百万のデータを2回抽出し、Fine-tuning

https://www.codexa.net/data_augmentation_python_keras/

モデルの学習 (pretrained some datasets) SROIE dataset 文字認識タスクの学習用に用意された、レシートの画像データセット https://arxiv.org/abs/2103.10213 8/14

https://arxiv.org/abs/2103.10213

モデルの学習 (pretrained some datasets) IAM Handwriting dataset 手書き文字のデータセット https://fki.tic.heia-fr.ch/databases/iam-handwriting-database 9/14

https://fki.tic.heia-fr.ch/databases/iam-handwriting-database

10.

モデルの学習 (pretrained some datasets) 10/14 事前学習を最後まで行ったものが、全てにおいて高スコア

11.

推論速度 11/14 Model Parameters Speed#Tokens 𝑇𝑟𝑂𝐶𝑅𝑆𝑀𝐴𝐿𝐿 62M 89.22 tokens/s 𝑇𝑟𝑂𝐶𝑅𝐵𝐴𝑆𝐸 334M 50.43 tokens/s 𝑇𝑟𝑂𝐶𝑅𝐿𝐴𝑅𝐺𝐸 558M 47.94 tokens/s パラメータ数を増やしても、推論速度がそれほど落ちない

12.

TrOCRの実験➀ 12/14 入力画像出力結果学習データに含まれているため、出力結果は当然一致 https://huggingface.co/docs/transformers/model_doc/trocr

https://huggingface.co/docs/transformers/model_doc/trocr

13.

TrOCRの実験② 入力画像自分の手書き文字出力結果出力結果は一致せず 13/14

14.

まとめ・Transformer-basedの手書き文字認識モデルが提案・パラメータ数が増えても推論速度が落ちにくい特長・一方、学習データにない筆跡の認識が難しい可能性・実用のためには、更なるFine-tuningが必要・需要次第でモデルが大規模化される可能性 14/14