Datasets
- ICDAR 2019 cTDaR (Website, Paper, Github)
- ICDAR 2019 Competition on Table Detection and Recognition (cTDaR)
- 고문서 1,000장 / 현대 문서 1,000장 각각 존재
- Table detection, Table Recognition
데이터셋 예시
- SciTSR (Github, Paper)
- # Train / # Test = 12K / 3K
- Complicated # Train / # Test = 2,885 / 716
- 아카이브의 학술논문 테이블
데이터셋 예시
- TableBank (Website, Github, Paper)
- # Train / val / test = 130K / 10K / 5K (Table Structure Recognition)
- 인터넷에서 .docx 파일 크롤링(다국어) + arxiv.org 에서 .tex 파일 다운로드
- Task: 이미지 to HTML
- PubTabNet (Website, Github, Paper)
- 568K table images
- GT format: HTML
- Source: PubMed Central Open Access Subset (PMCOA)
데이터셋 예시
좌: 이미지 / 우: HTML 렌더링
- FinTabNet (Website, Paper)
- Train - 92K / Test - 11K / Val - 11K
- Cell structure 인식이 주요 목표임.
- S&P500 회사들의 annual report 에서 테이블 추출
- 학술 논문에 비해 난이도가 더 높은 것 같음
데이터셋 예시
- PubTables-1M (Github, Paper)
- ~1M tables, 460K pages
- Task 1: Table Detection (TD)
- Task 2: Table Structure Recognition (TSR)
- Task 3: Funcional Analysis (FA)
- Object detection 모델을 사용한 cell detection으로 PubTables-1M 데이터셋에 실험
→ Header, Cell 등을 정의
- ICDAR 2021 (Paper, )
- ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX
- 표 이미지를 LATEX 코드로 변환하는 Task.
- Task 1: Table Structure Reconstruction (TSR)
- Task 2: Table Content Reconstruction (TCR)
- 데이터셋 규모
데이터셋 예시
- TabLeX (Google Drive, Paper)
- 1M+ tables
- ICDAR 2021과 유사 (table structure, table content 분리)
- Table image → LaTeX
데이터셋 예시
Metric
- TEDS
Tree-edit-distance-based similarity
표를 표현하는 HTML 코드를 tree 구조로 만들고, 이 트리들 간의 Tree Edit Distance(Paper)를 계산.
Edit distance를 정규화하여 TEDS 값 산출.
- BLEU score
Papers
- (PubTabNet, EDD, TEDS score) Image-based table recognition: data, model, and evaluation (ECCV 2020)
- (FinTabNet, GTE) Global Table Extractor (GTE): A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context (WACV 2021)
- (DGCNN) Rethinking Table Recognition using Graph Neural Networks (ICDAR 2019) - Ref. 50
- (GraphTSR, SciTSR) Complicated Table Structure Recognition
Resources
Share article