3가지 질문: AI 이미지 생성기가 로봇을 어떻게 도울 수 있습니까?

이전 이미지 다음 이미지

꿈과 현실의 교차점에서 환상적인 광경을 만들어내는 AI 이미지 생성기가 웹 곳곳에 떠오릅니다. 그들의 엔터테인먼트 가치는 인간 디자이너의 두뇌에 대한 간접적인 포털 역할을 하는 기발하고 무작위적인 이미지의 계속 확장되는 보물 창고에서 입증됩니다. 간단한 텍스트 프롬프트는 즉각적인 만족을 위해 내장되어 있는 우리의 원시 두뇌를 만족시키는 거의 즉각적인 이미지를 생성합니다.

초기 단계인 것처럼 보이지만 AI 생성 예술 분야는 기술적 이미지를 만들기 위해 상징적 규칙 기반 접근 방식을 사용한 초기 시도를 통해 1960년대까지 거슬러 올라갑니다. 단어를 풀고 분석하는 모델의 발전이 점점 더 정교해지는 반면, 생성 예술의 폭발적인 증가는 과대광고와 논란에 휩싸인 저작권, 허위 정보, 편견에 대한 논쟁을 촉발시켰습니다. 전기 공학 및 컴퓨터 과학과 박사 과정 학생이자 MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 소속인 Yilun Du는 최근 DALL-E 2와 같은 모델을 더욱 창의적으로 만들고 장면 이해를 향상시키는 새로운 방법을 개발했습니다. 여기에서 Du는 이러한 모델의 작동 방식, 이 기술 인프라가 다른 영역에 적용될 수 있는지 여부, AI와 인간 창의성 사이의 경계를 그리는 방법에 대해 설명합니다.

큐: AI가 생성한 이미지는 '안정적인 확산' 모델을 사용하여 단 몇 분 만에 단어를 놀라운 이미지로 변환합니다. 그러나 사용된 모든 이미지에는 일반적으로 그 뒤에 인간이 있습니다. 그렇다면 AI와 인간 창의성의 경계는 무엇일까요? 이 모델은 실제로 어떻게 작동합니까?

ㅏ: Google 검색에서 얻을 수 있는 모든 이미지와 관련 패턴을 상상해 보세요. 이것이 바로 이 모델들이 먹는 식단입니다. 그들은 인터넷에서 본 수십억 개의 이미지와 유사한 이미지를 생성하기 위해 이러한 모든 이미지와 캡션에 대해 훈련을 받았습니다.

어떤 모델이 강아지 사진을 많이 봤다고 가정해 보겠습니다. "개"와 같은 유사한 텍스트 입력 프롬프트를 받으면 이미 본 많은 개 사진과 매우 유사해 보이는 사진을 생성할 수 있도록 훈련되었습니다. 좀 더 방법론적으로 이 모든 것이 작동하는 방식은 70년대나 80년대에 시작된 "에너지 기반 모델"이라고 불리는 매우 오래된 모델 클래스로 거슬러 올라갑니다.

에너지 기반 모델에서는 이미지를 생성하기 위한 물리적 소산을 시뮬레이션하는 데 사용되는 이미지에 대한 에너지 환경이 구성됩니다. 예를 들어, 잉크 도트를 물에 떨어뜨리고 사라지면 마지막에 균일한 질감을 얻을 수 있습니다. 그러나 이 소산 과정을 역전시키려고 하면 점차적으로 원래의 잉크 점이 다시 물 속에 들어가게 됩니다. 아니면 매우 복잡한 블록 타워가 있는데 공으로 치면 블록 더미로 무너진다고 가정해 보겠습니다. 그러면 이 블록 더미는 매우 무질서해지며 실제로 구조가 많지 않습니다. 타워를 소생시키려면 이 접는 과정을 역으로 진행하여 원래의 블록 더미를 생성할 수 있습니다.

이러한 생성 모델이 이미지를 생성하는 방식은 매우 유사한 방식입니다. 처음에는 정말 멋진 이미지가 있고 무작위 노이즈에서 시작하여 기본적으로 이 프로세스를 역전시키는 프로세스를 시뮬레이션하는 방법을 배웁니다. 노이즈에서 원본 이미지로 돌아가서 이 이미지를 반복적으로 다듬어 더욱 사실적으로 만듭니다.

AI와 인간의 창의성 사이의 경계가 무엇인지에 관해 말하자면, 이러한 모델은 실제로 사람들의 창의성에 대해 훈련되었다고 말할 수 있습니다. 인터넷에는 사람들이 과거에 이미 만든 모든 종류의 그림과 이미지가 있습니다. 이러한 모델은 인터넷에 있는 이미지를 요약하고 생성하도록 훈련되었습니다. 결과적으로 이러한 모델은 사람들이 수백 년 동안 창의력을 발휘해 온 것의 결정체에 가깝습니다.

블로그

3가지 질문: AI 이미지 생성기가 로봇을 어떻게 도울 수 있습니까?