이미지 AI 확대기 사용 가이드

이 가이드는 스테이블 디퓨전(Stable Diffusion)으로 생성한 이미지의 품질을 향상시키기 위한 이미지 AI 확대기에 대해 설명합니다.

이미지 확대 도구가 필요한 이유

스테이블 디퓨전 v1.4 및 v1.5는 기본적으로 512×512픽셀 이미지를 생성합니다. 현대의 디지털 환경에서는 이 크기가 종종 작게 느껴질 수 있습니다. 예를 들어, iPhone 12는 4,032×3,024픽셀 크기의 12MP 이미지를 생성합니다.

문제를 더 복잡하게 만드는 것은 스테이블 디퓨전으로 생성된 복잡한 장면이 선명하지 않은 경우가 많다는 점입니다. 즉, 전반적인 이미지의 형태는 괜찮은 것 같아도, 자세히 들여다 보면 세밀한 디테일이 표현되지 않는 경우가 많다는 것입니다.

전통적인 확대 도구의 단점

전통적인 이미지 확대 방법들은 이미지의 픽셀값만을 활용해 확대하므로, 누락된 정보를 정확하게 복원하지 못합니다. 즉, 100x100 이미지를 200x200 으로 확대할 경우, 새로 생성되는 픽셀은 그 주변에 있는 픽셀들 값을 적당히 덧셈/곱셈하여 만들어낸다는 뜻입니다. 그러나, 이러한 방식으로는 누락된 정보를 정확하게 복원하는 것이 불가능합니다.

인공지능 확대 도구의 작동 원리

인공지능 확대 도구는 딥러닝을 통해 학습된 데이터를 기반으로 픽셀을 생성하며, 이를 통해 누락된 정보를 효과적으로 복원합니다. 인공지능 확대 도구(AI UpScaler),는 방대한 양의 학습된 데이터를 기반으로 픽셀을 생성합니다. 딥러닝 학습과정에는 좋은 품질의 이미지를 학습시키고, 이를 인위적으로 손상시켜 실제 화질 저하를 모방시킨 뒤 학습하는 과정을 반복하게 됩니다. 이러한 과정을 통해 어떠한 이미지에서는 어떤 방식으로 복원시키는 것이 좋은지를 학습하게 되는 것입니디다. 스테이블 디퓨전 모델에는 방대한 양의 사전 지식이 내장되어 있습니다. 이 모델을 사용하면 누락된 정보를 채울 수 있습니다. 이는 사람이 다른 사람의 얼굴을 기억할 때, 눈 코 입 등 각각의 부분을 세세하게 기억할 필요가 없는 것과 비슷합니다.

아래는 기존 확대도구(Lanczos)와 인공지능 확대 도구(R-ESRGAN)를 비교한 예시입니다. AI 확대도구에 내장된 지식을 사용하여, 이미지 크기를 단순하게 키우는 것이 아니라, 디테일까지 복구할 수 있는 것입니다.

Generative AI in Architecture

스테이블 디퓨전의 AI 확대도구 사용법

AUTOMATIC1111 GUI를 통해 AI 확대도구를 사용할 수 있습니다.
Extra 페이지에서 Single Image를 선택하고, 확대하고자 하는 이미지와 확대 비율을 선택합니다.

Generative AI in Architecture

AI 확대도구 종류

ESRGAN 4x
R-ESRGAN 4x
LSDR
여러 다른 확대 도구들

새로운 Upscaler 설치방법

새로운 Upscaler를 설치하기 위해서는 해당 모델을 다운로드하고 stable-diffusion-webui\models\ESRGAN 폴더에 넣은 뒤, GUI를 새로고침합니다.

Upscaler2

Upscaler2를 사용하여 두 가지 확대 도구의 효과를 조합할 수 있습니다.

SD Upscale 스크립트

SD Upscale 스크립트는 이미지를 생성한 후 바로 확대 작업을 수행할 수 있는 스크립트입니다.

txt2img 페이지의 Hires Fix

txt2img로 생성하는 이미지를 바로 확대하고 싶을 때 사용할 수 있는 방법입니다.

이 가이드는 스테이블 디퓨전으로 생성한 이미지의 품질을 향상시키는 데 도움이 되는 이미지 AI 확대기에 대한 기본적인 정보를 제공합니다.