로민 공식 블로그 | The Data for AI
로민은 AI가 정확하게 읽고 이해할 수 있는 문서 데이터를 만듭니다.
Document AI 리딩 기업 로민이 전하는 인사이트와 활용 전략, 지금 확인해보세요.
Document AI 리딩 기업 로민이 전하는 인사이트와 활용 전략, 지금 확인해보세요.
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
OCR 없는 문서 이해를 위한 혁신적 AI 모델. 고해상도 이미지 처리, 토큰 최적화, 텍스트 스팟팅 기능 탑재. 12개 벤치마크에서 우수한 성능 입증. 문서 이해 AI의 새 지평을 열다
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
SliceGPT는 Transformer 기반 언어 모델의 효율성을 극대화하기 위해 Structured Pruning 방식을 제안합니다. 주성분 분석(PCA)으로 weight matrix를 최적화하여 최대 64%의 연산 비용을 줄이면서 성능을 유지합니다.
Improving Post-Training Quantization on Object Detection with Task Loss-Guided Lp Metric
quantization에서의 두 접근 방식 QAT(Quantization Aware Training)와 PTQ(Post Training Quantization) 중에서 PTQ 방식에서의 성능 하락을 완화하기 위한 DetPTQ라는 새로운 방식을 제시
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
DetPTQ와 ODOL을 활용해 Document AI 모델의 PTQ 성능을 혁신적으로 개선하고, 성능 저하 없이 효율적 양자화를 실현합니다.