Skip to content

Latest commit

 

History

History
64 lines (58 loc) · 3.16 KB

README.md

File metadata and controls

64 lines (58 loc) · 3.16 KB

1. Overview

[DocVQA] 이미지와 질문에 따른 답변 추론 시연 영상 chrome_eAufrMwH5i_Trim

Introduce

image
DocVQA(Document Visual Question Answering)는 RRC(Robust Reading Competetion)에서 2021년에 내놓은 Task 중 하나로, 기존의 DAR방식보다 한 단계 더 높은 난이도의 TASK입니다.

정확히는 문서 이미지의 텍스트(수기, 타이핑 또는 인쇄) 내용을 추출하고 해석할 뿐만 아니라 레이아웃(페이지 구조, 양식, 표), 텍스트가 아닌 요소(마크, 체크박스, 구분자, 다이어그램) 및 스타일(글꼴, 색상, 강조 표시)을 포함한 수많은 다른 시각적 단서를 활용하는 TASK입니다.

What we did

  1. 데이터셋에 제공되어있지 않은 Answer index를 찾기 위해 기존의 Hit algorithm을 유클리드 기반으로 수정
  2. Category별 Data Annotation, Error Analysis
  3. Visualize Attention Heatmap
  4. Decoder Generate

2. Project Tree

DocVQA
├─ configs
│  └─ baseline.yaml
├─ data_proces
│  └─ LayoutLMPreprocess.py
├─ install
│  └─ install_requirements.sh
├─ jupyter
│  ├─ Datasets.ipynb
│  ├─ inference.ipynb
│  └─ LayoutLMv2.ipynb
├─ model
│  ├─ BaselineModel.py
│  └─ Decoder.py
├─ save
│  └─ model.pt
├─ trainer
│  ├─ BaselineTrainer.py
│  └─ DecoderTrainer.py
├─ utils
│  ├─ check_dir.py
│  ├─ metric.py
│  ├─ seed_setting.py
│  └─ wandb_setting.py
├─ .gitignore
├─ git_convention.md
├─ train.py
├─ generate.py
└─ inference.py

3. Contributors

김근형 김찬 유선종 이헌득
Github Github Github Github
  • 김근형: Deocder, Streamlit Demo, Fine-tuning
  • 김찬: Result Analysis, Encoder, Question Maker Exp.
  • 유선종: AttentionHeatmap, Hit Algorithm, Refactoring Code, Encoder
  • 이헌득: Decoder, Baseline Modeling, BoundingBox Exp. Code Reviewer

4. Project Pipeline

image


Reference

Mathew, M., Karatzas, D., & Jawahar, C. V. (2021). Docvqa: A dataset for vqa on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 2200-2209).