【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

524 Views

June 09, 23

スライド概要

2023/6/9
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 西﨑 稜平

2.

書誌情報 Title : TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models Author : Minghao Li1*, Tengchao Lv2, Jingye Chen2, Lei Cui2, Yijuan Lu2, Dinei Florencio2, Cha Zhang2, Zhoujun Li1, Furu Wei2 URL : https://arxiv.org/abs/2109.10282 2/14

3.

TrOCRとは 3/14 手書き文字認識タスクを行うことを目的とした Transformer-basedモデルを構築し、Pretrainingしたもの 《モデルの特徴》 ・Encoderで画像の特徴を捉え、Decoderの言語モデルを 利用してどの文字かを判定する 《outputの特徴》 ・これまでのCNNベースのモデルよりも入力画像に特有の 誘導バイアスが小さい

4.

モデル構造(概略) 4/14 Encoder Decoder Model構造 BEiT(DeiT) RoBERTa Input Image Text

5.

モデル構造(概略) 検出結果の出力を行う時に利用する ・Byte Pair Encoding 単語を細かく分割し、未知語を未知語としないために工夫 https://yolo-kiyoshi.com/2020/10/19/post-2315/ ・SentencePiece 単語の分割点を学習 5/14

6.

モデル選択 (pretrained only by SROIE dataset) 6/14

7.

モデルの学習 (pretrained some datasets) 7/14 ・Pretrained Model 既存の事前学習済みEncoder, Decoder ・Data Augmentation IAM Handwriting datasetに対するdata augmentation https://www.codexa.net/data_augmentation_python_keras/ ・First-Stage Pretrain SROIE dataset, IAM Handwriting datasetから数億のデータを抽出し、 Fine-tuning ・Second-Stage Pretrain 同 datasetから数百万のデータを2回抽出し、Fine-tuning

8.

モデルの学習 (pretrained some datasets) SROIE dataset 文字認識タスクの学習用に用意された、レシートの画像データセット https://arxiv.org/abs/2103.10213 8/14

9.

モデルの学習 (pretrained some datasets) IAM Handwriting dataset 手書き文字のデータセット https://fki.tic.heia-fr.ch/databases/iam-handwriting-database 9/14

10.

モデルの学習 (pretrained some datasets) 10/14 事前学習を最後まで行ったものが、全てにおいて高スコア

11.

推論速度 11/14 Model Parameters Speed#Tokens 𝑇𝑟𝑂𝐶𝑅𝑆𝑀𝐴𝐿𝐿 62M 89.22 tokens/s 𝑇𝑟𝑂𝐶𝑅𝐵𝐴𝑆𝐸 334M 50.43 tokens/s 𝑇𝑟𝑂𝐶𝑅𝐿𝐴𝑅𝐺𝐸 558M 47.94 tokens/s パラメータ数を増やしても、推論速度がそれほど落ちない

12.

TrOCRの実験➀ 12/14 入力画像 出力結果 学習データに含まれているため、出力結果は当然一致 https://huggingface.co/docs/transformers/model_doc/trocr

13.

TrOCRの実験② 入力画像 自分の手書き文字 出力結果 出力結果は一致せず 13/14

14.

まとめ ・Transformer-basedの手書き文字認識モデルが提案 ・パラメータ数が増えても推論速度が落ちにくい特長 ・一方、学習データにない筆跡の認識が難しい可能性 ・実用のためには、更なるFine-tuningが必要 ・需要次第でモデルが大規模化される可能性 14/14