Document AI 인사이트, 로민 블로그
Document AI 기술 트렌드와 인사이트,
로민 블로그에서 확인하세요.
로민 블로그에서 확인하세요.
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
OCR 없는 문서 이해를 위한 혁신적 AI 모델. 고해상도 이미지 처리, 토큰 최적화, 텍스트 스팟팅 기능 탑재. 12개 벤치마크에서 우수한 성능 입증. 문서 이해 AI의 새 지평을 열다
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
SliceGPT는 Transformer 기반 언어 모델의 효율성을 극대화하기 위해 Structured Pruning 방식을 제안합니다. 주성분 분석(PCA)으로 weight matrix를 최적화하여 최대 64%의 연산 비용을 줄이면서 성능을 유지합니다.
Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric
quantization에서의 두 접근 방식 QAT(Quantization Aware Training)와 PTQ(Post Training Quantization) 중에서 PTQ 방식에서의 성능 하락을 완화하기 위한 DetPTQ라는 새로운 방식을 제시
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
DetPTQ와 ODOL을 활용해 Document AI 모델의 PTQ 성능을 혁신적으로 개선하고, 성능 저하 없이 효율적 양자화를 실현합니다.