토요일, 12월 20, 2025

제어된 확산 모델은 이미지 자료의 속성을 변경합니다.

날짜:

MIT의 컴퓨터 과학 및 인공 지능 연구소(CSAIL)와 Google Research의 연구원들은 이미지에 있는 물체의 물리적 특성을 변경할 수 있는 확산 모델의 형태로 디지털 마법을 수행했을 수 있습니다.

더빙 연금술사, 시스템을 통해 사용자는 실제 이미지와 AI 생성 이미지 모두에서 거칠기, 금속성, 알베도(객체의 초기 기본 색상) 및 투명도의 네 가지 속성을 변경할 수 있습니다. 이미지 대 이미지 게시 모델로서, 어떤 이미지든 입력한 다음 -1에서 1까지 연속 스케일 내에서 각 속성을 조정하여 새로운 시각적 이미지를 생성할 수 있습니다. 이러한 이미지 편집 기능은 비디오 게임의 모델 개선, 시각 효과의 AI 기능 확장, 기계 학습 데이터 강화 등으로 확장될 수 있습니다.

Alchemist의 마법은 노이즈를 줄이는 확산 모델에서 시작됩니다. 실제로 연구원들은 사실적인 결과와 편집 기능으로 칭찬받는 텍스트-이미지 모델인 Stable Diffusion 1.5를 사용했습니다. 이전 작업은 인기 있는 모델을 기반으로 구축되어 사용자가 개체 교환이나 이미지 깊이 변경과 같은 더 높은 수준의 변경을 수행할 수 있도록 했습니다. 이와 대조적으로 CSAIL 및 Google Research 방법은 이 모델을 적용하여 하위 수준 속성에 초점을 맞추고 해당 모델보다 성능이 뛰어난 고유한 슬라이더 기반 인터페이스를 통해 개체의 재료 속성에 대한 더 세부적인 세부 정보를 검토합니다.

이전 확산 시스템이 모자에서 토끼를 꺼내 이미지를 얻을 수 있었던 반면, 화학자는 동일한 동물을 투명하게 보이게 만들 수 있었습니다. 이 시스템은 또한 고무 오리를 금속처럼 보이게 만들고, 금붕어의 금색을 제거하고, 낡은 신발을 닦을 수도 있습니다. Photoshop과 같은 프로그램에는 유사한 기능이 있지만 이 모델은 훨씬 더 눈에 띄는 방식으로 재료의 속성을 변경할 수 있습니다. 예를 들어, 널리 사용되는 응용 프로그램에서는 이미지의 금속 모양을 수정하려면 여러 단계를 거쳐야 합니다.

MIT 전기 공학 및 컴퓨터 과학 박사 과정 학생이자 결과를 설명하는 새 논문의 주저자인 Praful Sharma는 “만든 이미지를 보면 결과가 마음에 들었던 것과 정확하게 일치하지 않는 경우가 많습니다.”라고 말합니다. . 작업. “이미지를 편집하면서 제어하고 싶지만 이미지 편집 소프트웨어의 컨트롤로는 자료를 변경할 수 없습니다. Alchemist를 사용하면 텍스트-이미지 모델 출력의 사실성을 활용하여 슬라이더 컨트롤을 만들 수 있습니다. 이를 통해 이미지가 “기본”으로 렌더링된 후 특정 속성을 수정할 수 있습니다.

정밀한 제어

이번 연구에 참여하지 않은 Carnegie Mellon University의 조교수 Jun-Yan Zhou는 “생성형 텍스트-이미지 모델을 통해 일반 사용자는 문장을 작성하는 것처럼 쉽게 이미지를 생성할 수 있었습니다.”라고 말했습니다. 모델은 어려울 수 있어요.” . “화병을 만드는 것은 간단하지만, 투명도와 거칠기 같은 특정한 물리적 특성을 지닌 꽃병을 제조하려면 사용자가 다양한 텍스트 프롬프트와 임의의 시드를 실험하는 데 시간을 보내야 하며 이는 특히 작업의 정확성이 필요한 전문 사용자에게 실망스러울 수 있습니다. 솔루션 제공 “대규모 확산 모델을 위한 데이터 기반 프로토타입을 활용하면서 입력 이미지 텍스처를 세밀하게 제어함으로써 이 과제를 실행하고, 생성 모델을 일반적으로 사용되는 콘텐츠 제작 소프트웨어의 기존 인터페이스에 원활하게 통합하는 향후 작업에 영감을 줍니다.”

Alchemist 디자인 기능은 비디오 게임에서 다양한 모델의 모양을 수정하는 데 도움이 될 수 있습니다. 이 영역에 이 확산 모델을 적용하면 제작자가 디자인 프로세스 속도를 높이고 레벨의 게임플레이에 맞게 텍스처를 최적화하는 데 도움이 될 수 있습니다. 또한 Sharma와 그의 프로젝트 팀은 그래픽 디자인 요소, 비디오 및 영화 효과를 변경하여 사실감을 향상하고 원하는 정확한 물리적 외관을 달성하는 데 도움을 줄 수 있습니다.

이 방법은 처리와 같은 작업에 대한 기계 학습 데이터를 향상시킬 수도 있습니다. 기계를 더 많은 텍스처에 노출함으로써 현실 세계에서 이해할 수 있는 다양한 요소를 더 잘 이해할 수 있습니다. 화학자는 또한 이미지 분류에 도움을 주어 신경망이 이미지의 물리적 변화를 인식하지 못하는 부분을 분석할 수 있습니다.

Sharma와 그의 팀의 작업은 유사한 모델을 뛰어넘어 필요한 관심 주제만 주의 깊게 편집했습니다. 예를 들어, 사용자가 다양한 모델에게 돌고래를 편집하여 최대 투명도에 도달하도록 요청했을 때 화학자만이 바다 배경을 편집하지 않은 채 이러한 위업을 달성할 수 있었습니다. 연구원들은 비교 방법에 사용된 동일한 데이터에 대해 InstructPix2Pix 비교 확산 모델을 훈련했을 때 Alchemist가 우수한 정확도 점수를 달성했음을 발견했습니다. 마찬가지로, 사용자 연구에 따르면 MIT 모델이 해당 모델보다 선호되고 더 현실적으로 인식되는 것으로 나타났습니다.

합성 데이터로 실제 데이터 유지

연구원들에 따르면, 실제 데이터를 수집하는 것은 비현실적이었습니다. 대신, 인기 있는 컴퓨터 그래픽 디자인 도구인 Blender에서 공개적으로 사용 가능한 100개의 고유한 3D 개체에 적용된 1,200개 재료의 재료 속성을 무작위로 편집하여 합성 데이터 세트로 모델을 훈련했습니다.

MIT 전기 공학 및 컴퓨터 과학부(EECS)의 컴퓨팅 교수이자 CSAIL 회원인 Fredo Durand는 “생성 AI 이미지 합성 제어는 지금까지 텍스트가 설명할 수 있는 내용으로 제한되었습니다.”라고 말합니다. 논문의 수석 저자. “이 작품은 수십 년간의 컴퓨터 그래픽 연구를 통해 물려받은 시각적 기능에 대한 새롭고 정교한 제어를 가능하게 합니다.”

“Alchemist는 기계 학습 및 확산 모델을 CGI 커뮤니티와 그래픽 디자이너에게 실용적이고 유용하게 만드는 데 필요한 기술입니다.”라고 Google Research의 수석 소프트웨어 엔지니어이자 공동 저자인 Mark Matthews는 덧붙입니다. “그것이 없으면 이런 종류의 통제할 수 없는 무작위성에 갇히게 됩니다. 잠시 동안 재미있을 수도 있지만 어느 시점에서는 실제 작업을 완료하고 창의적인 비전을 따르도록 해야 합니다.”

Sharma의 최신 프로젝트는 그가 연구를 주도한 지 1년 만에 이루어졌습니다. 재료, 이는 이미지에서 유사한 소재를 인식할 수 있는 머신러닝 방법입니다. 이 이전 작업에서는 AI 모델이 어떻게 재료 이해 기술을 향상시킬 수 있는지 보여 주었으며 Alchemist와 마찬가지로 Blender의 3D 모델 합성 데이터 세트에서 미세 조정되었습니다.

그러나 Alchemist에는 현재 몇 가지 제한 사항이 있습니다. 모델은 조명을 정확하게 추론하기 어렵기 때문에 사용자 입력을 따르지 못하는 경우가 있습니다. Sharma는 이 방법이 때때로 물리적으로 믿을 수 없는 투명도를 생성한다고 지적합니다. 예를 들어, 시리얼 상자 안에 부분적으로 손이 있다고 상상해 보십시오. 이 속성에 대한 최대 연금술사 설정을 조정하면 손가락이 닿지 않는 투명한 용기를 볼 수 있습니다.

연구원들은 이 모델이 장면 수준 그래픽의 3D 자산을 어떻게 개선하는지 확장하려고 합니다. 또한 화학자가 이미지에서 재료의 특성을 추론하는 데 도움이 될 수 있습니다. Sharma에 따르면 이러한 종류의 작업은 미래에 물체의 광학적 특징과 기계적 특징 사이의 연결을 열어줄 수 있습니다.

MIT EECS 교수이자 CSAIL 회원인 William T. Freeman도 수석 저자로 Varun Jampani 및 Google Research 과학자 Yuanzhen Li PhD ’09, Xuhui Jia, Dmitry Lagun과 합류했습니다. 이 연구는 국립과학재단(National Science Foundation)의 보조금과 Google 및 Amazon의 선물로 부분적으로 지원되었습니다. 이 그룹의 작업은 6월 CVPR에서 소개될 예정입니다.

관련 기사

제시 린가드, 한국 경찰 조사 후 발언 | 축구

제시 린가드는 무면허 전기 스쿠터를 탄 혐의로 경찰 조사를 받은 후 한국에 있는 새 집의 규칙을 몰랐다고 말했습니다. 린가드는...

SpaceX는 희귀하고 위험한 착륙으로 Falcon 9 로켓을 벼랑 끝으로 밀어 넣습니다.

이것은 투자 조언이 아닙니다. 저자는 언급된 주식에 대해 어떠한 입장도 갖고 있지 않습니다. Wccftech.com에는 공개 및 윤리 정책이...

2024 한국영화제, 우정을 다룬 영화 5편

크리스토퍼 퍼넬(Christopher Purnell) - Philstar.com 2024년 9월 18일 | 오후 7시 14분 마닐라, 필리핀 - 올해 한국영화제는 한국과 필리핀 수교...

White Fragility 저자 Robin DiAngelo에 대한 표절 고소가 기각되었습니다. 서적

지난달 'White Fragility'를 비롯해 인종차별에 관한 여러 책을 쓴 로빈 디안젤로(Robin DiAngelo)를 대상으로 제기된 표절 고소장이 기각됐다. DiAngelo의 2004년...