[Paper Review] Stable Diffusion 3

[논문 리뷰] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Visual Representation Alignment for MLLMs Patrick Esser, et al ICML 2024 [arXiv] [Github] [Hugging Face]...

Dec 15, 2025 Paper Review, Multi Modal, ICML2024

DiffusionLLM의 연구 동향

Diffusion 기반 LLM: 구조, 특성 및 최신 연구 동향 1. Diffusion 기반 언어모델의 구조와 작동 원리 Diffusion 모델의 개념: Diffusion(확산) 모델은 점진적 노이즈 제거 과정을 통해 데이터를 생성하는 방식입니다. 처음에는 완전히 노이즈가 섞인 상태에서 시작하여 여러 단계에 걸쳐 노이즈를 제거함으로써 최종 샘플(텍...

Sep 17, 2025 Study

LLaMA, LLaVA, ...

LLaMA와 다른 대표 언어모델들의 차이점 사전학습 목표: BERT는 Masked Language Modeling(입력 단어의 15%를 마스킹한 후 예측)과 Next Sentence Prediction(NSP)를 사용하여 양방향 문맥 이해를 학습한다 . 반면 GPT·LLaMA 계열은 오토리그레시브 방식으로, 주어진 앞선 단어들로부터 다음 단어(...

Sep 17, 2025 Study

[Paper Review] Visual Representation Alignment for MLLMs

[논문 리뷰] Visual Representation Alignment for MLLMs Visual Representation Alignment for MLLMs Heeji Yoon, Jaewoo Jung et al [arXiv] [Github] [Project Page] Background MLLMs MLLM은 텍스트와 이...

Sep 17, 2025 Paper Review, Multi Modal

[Paper Review] CoIBA

[논문 리뷰] Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers Comprehensive Information Bottleneck for Unveiling Universal Attribution to Int...

Sep 9, 2025 Paper Review, Computer Vision, CVPR2025

[Paper Review] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

[논문 리뷰] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction Keyu Tian, Yi ...

Sep 5, 2025 Paper Review, Computer Vision, NeurIPS2024

[Paper Review] SigLIP

[논문 리뷰] Sigmoid Loss for Language Image Pre-Training Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai et al ICCV 2023 [arXiv] [Github] Background Contrastive Learning 은 pa...

Sep 2, 2025 Paper Review, Multi Modal, ICCV2023

[Paper Review] Do Vision Transformers See Like Convolutional Neural Networks?

[논문 리뷰] Do Vision Transformers See Like Convolutional Neural Networks? Do Vision Transformers See Like Convolutional Neural Networks? Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiy...

Aug 19, 2025 Paper Review, Computer Vision, NeurIPS2021

[Paper Review] DINO

[논문 리뷰] Emerging Properties in Self-Supervised Vision Transformers (DINO) Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´ e Jegou,...

Aug 5, 2025 Paper Review, Computer Vision, ICCV2021

[Paper Review] 🦩 Flamingo: a Visual Language Model for Few-Shot Learning

[논문 리뷰]🦩 Flamingo: a Visual Language Model for Few-Shot Learning 🦩 Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac et al NeurIPS 2022 [arXiv] 구글 DeepMin...

Jul 29, 2025 Paper Review, Multi Modal, NeurIPS2022