Awesome Table Structure Recognition

Inc Lomin's avatar
Apr 19, 2022
Awesome Table Structure Recognition

Datasets

  1. ICDAR-2013 (Website, Paper)
      • # Test = 156
      • Table detection, Table Recognition
      • 정부 문서 구글링
      데이터셋 예시
      eu-004.pdf
      eu-004-str.xml
       
       
  1. ICDAR 2019 cTDaR (Website, Paper, Github)
      • ICDAR 2019 Competition on Table Detection and Recognition (cTDaR)
      • 고문서 1,000장 / 현대 문서 1,000장 각각 존재
      • Table detection, Table Recognition
      데이터셋 예시
      notion image
      notion image
       
  1. SciTSR (Github, Paper)
      • # Train / # Test = 12K / 3K
      • Complicated # Train / # Test = 2,885 / 716
      • 아카이브의 학술논문 테이블
      데이터셋 예시
      notion image
      notion image
      notion image
      notion image
       
  1. TableBank (Website, Github, Paper)
      • # Train / val / test = 130K / 10K / 5K (Table Structure Recognition)
      • 인터넷에서 .docx 파일 크롤링(다국어) + arxiv.org 에서 .tex 파일 다운로드
      • Task: 이미지 to HTML
       
  1. PubTabNet (Website, Github, Paper)
      • 568K table images
      • GT format: HTML
      • Source: PubMed Central Open Access Subset (PMCOA)
      데이터셋 예시
      좌: 이미지 / 우: HTML 렌더링
      notion image
       
       
  1. FinTabNet (Website, Paper)
      • Train - 92K / Test - 11K / Val - 11K
      • Cell structure 인식이 주요 목표임.
      • S&P500 회사들의 annual report 에서 테이블 추출
      • 학술 논문에 비해 난이도가 더 높은 것 같음
      데이터셋 예시
      notion image
      notion image
       
  1. PubTables-1M (Github, Paper)
      • ~1M tables, 460K pages
      • Task 1: Table Detection (TD)
      • Task 2: Table Structure Recognition (TSR)
      • Task 3: Funcional Analysis (FA)
        • → Header, Cell 등을 정의
          notion image
      • Object detection 모델을 사용한 cell detection으로 PubTables-1M 데이터셋에 실험
        • notion image
       
  1. WTW (Github, Paper)
      • 14K tables
      • 상품 등 natural scene 의 table 이미지 위주. 인쇄된 문서 포함.
      • Cycle-CenterNet 제안
      데이터셋 예시
      notion image
      notion image
      notion image
       
       
  1. ICDAR 2021 (Paper, )
      • ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX
      • 표 이미지를 LATEX 코드로 변환하는 Task.
      • Task 1: Table Structure Reconstruction (TSR)
      • Task 2: Table Content Reconstruction (TCR)
      • 데이터셋 규모
        • notion image
      데이터셋 예시
      notion image
       
  1. TabLeX (Google Drive, Paper)
      • 1M+ tables
      • ICDAR 2021과 유사 (table structure, table content 분리)
      • Table image → LaTeX
      데이터셋 예시
      notion image
       
 

Metric

  1. TEDS
    1. Tree-edit-distance-based similarity
      http://fastwebstart.com/html5-table/
      표를 표현하는 HTML 코드를 tree 구조로 만들고, 이 트리들 간의 Tree Edit Distance(Paper)를 계산.
      Edit distance를 정규화하여 TEDS 값 산출.
      notion image
  1. BLEU score
    1.  

Papers

  • (GraphTSR, SciTSR) Complicated Table Structure Recognition
 

Resources

  1. IBM - Tutorial on Table Extraction and Understanding for Scientific and Enterprise Applications
  1. https://github.com/doc-analysis
  1. https://www.microsoft.com/en-us/research/project/document-ai/
Share article