로민 공식 블로그 | The Data for AI
로민은 AI가 정확하게 읽고 이해할 수 있는 문서 데이터를 만듭니다.
Document AI 리딩 기업 로민이 전하는 인사이트와 활용 전략, 지금 확인해보세요.
Document AI 리딩 기업 로민이 전하는 인사이트와 활용 전략, 지금 확인해보세요.
DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting
DEER(Detection-agnostic End-to-End Recognizer)는 텍스트 스팟팅의 새로운 접근 방식으로, 기존의 텍스트 탐지와 인식 시스템에서 벗어나 텍스트 탐지 오류에 덜 의존하는 인식 구조를 제안합니다. 이를 통해 다양한 형태와 크기의 텍스트를 효과적으로 인식할 수 있으며, 복잡한 탐지 메커니즘 없이도 성능을 유지합니다.
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
OCR 없는 문서 이해를 위한 혁신적 AI 모델. 고해상도 이미지 처리, 토큰 최적화, 텍스트 스팟팅 기능 탑재. 12개 벤치마크에서 우수한 성능 입증. 문서 이해 AI의 새 지평을 열다
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
SliceGPT는 Transformer 기반 언어 모델의 효율성을 극대화하기 위해 Structured Pruning 방식을 제안합니다. 주성분 분석(PCA)으로 weight matrix를 최적화하여 최대 64%의 연산 비용을 줄이면서 성능을 유지합니다.
Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric
quantization에서의 두 접근 방식 QAT(Quantization Aware Training)와 PTQ(Post Training Quantization) 중에서 PTQ 방식에서의 성능 하락을 완화하기 위한 DetPTQ라는 새로운 방식을 제시