일요일, 4월 28, 2024

AI 이미지 생성기가 그렇게 똑똑하다면 왜 입력하고 계산하기가 어렵습니까?

Must read

Ae Dong-Yul
Ae Dong-Yul
"트위터를 통해 다양한 주제에 대한 생각을 나누는 아 동율은 정신적으로 깊이 있습니다. 그는 맥주를 사랑하지만, 때로는 그의 무관심함이 돋보입니다. 그러나 그의 음악에 대한 열정은 누구보다도 진실합니다."

Midjourney, Stable Diffusion 및 DALL-E 2와 같은 생성 AI 도구는 놀라운 이미지를 실시간으로 생성하는 능력으로 우리를 놀라게 했습니다. 몇 초 안에.

그러나 그들의 성과에도 불구하고 AI 이미지 생성기가 생성할 수 있는 것과 우리가 할 수 있는 것 사이에는 당황스러운 차이가 남아 있습니다. 예를 들어, 이러한 도구는 개체 수를 세고 정확한 텍스트를 생성하는 것과 같이 단순해 보이는 작업에 만족스러운 결과를 제공하지 못하는 경우가 많습니다.

생성적 AI가 창의적 표현에서 전례 없는 수준에 도달했다면 왜 초등학생도 완료할 수 있는 작업에 어려움을 겪고 있습니까?

근본적인 원인을 탐색하면 AI의 복잡한 수치적 특성과 기능의 미묘한 차이를 밝히는 데 도움이 됩니다.

타이핑에 대한 AI 제한

인간은 서로 다른 글꼴로 작성된 텍스트 기호(예: 문자, 숫자, 문자)를 쉽게 인식할 수 있습니다. 또한 다양한 맥락에서 텍스트를 생성하고 맥락이 의미를 어떻게 바꿀 수 있는지 이해할 수 있습니다.

현재 AI 이미지 생성기는 이러한 고유한 이해가 부족합니다. 그들은 텍스트 기호가 의미하는 바를 실제로 이해하지 못합니다. 이 생성기는 인공 신경망에 구축됩니다. 연습하다 엄청난 양의 이미지 데이터에서 연결을 “학습”하고 예측합니다.

교육 이미지의 모양 그룹은 다른 엔터티와 연결됩니다. 예를 들어 안쪽을 향하는 두 선이 만나면 연필 끝이나 집 지붕을 나타낼 수 있습니다.

그러나 텍스트와 수량의 경우 사소한 결함도 눈에 띄기 때문에 상관 관계가 놀라울 정도로 정확해야 합니다. 우리의 두뇌는 연필 끝이나 모자의 약간의 편차를 허용할 수 있지만 단어를 쓰는 방법이나 손의 손가락 수에 관해서는 그렇게 많이 허용하지 않습니다.



자세히 알아보기: 인간과 AI 모두 환각을 일으키지만 같은 방식은 아닙니다.


텍스트-이미지 템플릿에 관한 한 텍스트 아이콘은 선과 도형의 조합일 뿐입니다. 텍스트는 매우 다양한 스타일로 제공되고 문자와 숫자가 끝없이 배열되어 사용되기 때문에 모델은 텍스트를 효과적으로 재현하는 방법을 배우지 못하는 경우가 많습니다.

인스턴트 “KFC 로고”에 응답하여 생성된 AI 생성 이미지입니다.
인공지능을 상상하다

그 주된 이유는 훈련 데이터가 충분하지 않기 때문입니다. AI 이미지 생성기는 요구 사항이 많습니다. 더 많은 훈련 데이터 다른 작업에 비해 텍스트와 수량을 정확하게 표현합니다.

인공지능 손의 비극

복잡한 세부 사항이 필요한 작은 개체를 처리할 때도 문제가 발생합니다. 손처럼.

“열 손가락 소녀, 사실적”이라는 빠른 메시지에 대한 응답으로 두 개의 AI 생성 이미지가 제작되었습니다.
셔터스톡 AI

트레이닝 이미지에서 손은 종종 작고, 물체를 잡고 있거나, 다른 아이템에 의해 부분적으로 가려져 있습니다. AI가 “손”이라는 용어를 5개의 손가락을 가진 인간의 손의 정확한 표현과 연관시키는 것이 어려워집니다.

따라서 인공지능이 생성한 손은 왜곡되어 보이는 경우가 많습니다손가락이 더 많거나 적거나 소매나 지갑과 같은 물건으로 손이 부분적으로 가려져 있습니다.

수량과 관련하여 유사한 문제가 발생합니다. AI 모델은 “4”라는 추상적 개념과 같이 수량에 대한 명확한 이해가 부족합니다.

따라서 이미지 생성기는 많은 양의 사과가 포함된 무수한 이미지의 학습에 의존하여 “4개의 사과” 주장에 응답하고 잘못된 양으로 출력을 반환할 수 있습니다.

즉, 훈련 데이터 내의 매우 다양한 연관성이 출력 수량의 정확도에 영향을 미칩니다.

“테이블 위의 소다 캔 5개”에 대한 응답으로 3개의 AI 생성 이미지가 생성되었습니다.
셔터스톡 AI

인공 지능은 쓰고 셀 수 있습니까?

텍스트를 이미지로 변환하고 텍스트를 비디오로 변환하는 것은 AI에서 비교적 새로운 개념이라는 점을 기억하는 것이 중요합니다. 현재 생성 플랫폼은 미래에 기대할 수 있는 “충실도가 낮은” 버전입니다.

훈련 과정과 AI 기술이 발전함에 따라 미래의 AI 이미지 생성기는 정확한 시각화를 더 잘 생성할 수 있을 것입니다.

공개적으로 액세스할 수 있는 대부분의 AI 플랫폼은 최고 수준의 기능을 제공하지 않는다는 점도 유의해야 합니다. 미세한 스크립트와 볼륨을 생성하려면 최적화되고 맞춤화된 네트워크가 필요하므로 고급 플랫폼에 유료로 가입하면 더 나은 결과를 얻을 수 있습니다.

Latest article