AI 이미지 생성기가 그렇게 똑똑하다면 왜 입력하고 계산하기가 어렵습니까?

Midjourney, Stable Diffusion 및 DALL-E 2와 같은 생성 AI 도구는 놀라운 이미지를 실시간으로 생성하는 능력으로 우리를 놀라게 했습니다. 몇 초 안에.

그러나 그들의 성과에도 불구하고 AI 이미지 생성기가 생성할 수 있는 것과 우리가 할 수 있는 것 사이에는 당황스러운 차이가 남아 있습니다. 예를 들어, 이러한 도구는 개체 수를 세고 정확한 텍스트를 생성하는 것과 같이 단순해 보이는 작업에 만족스러운 결과를 제공하지 못하는 경우가 많습니다.

생성적 AI가 창의적 표현에서 전례 없는 수준에 도달했다면 왜 초등학생도 완료할 수 있는 작업에 어려움을 겪고 있습니까?

근본적인 원인을 탐색하면 AI의 복잡한 수치적 특성과 기능의 미묘한 차이를 밝히는 데 도움이 됩니다.

타이핑에 대한 AI 제한

인간은 서로 다른 글꼴로 작성된 텍스트 기호(예: 문자, 숫자, 문자)를 쉽게 인식할 수 있습니다. 또한 다양한 맥락에서 텍스트를 생성하고 맥락이 의미를 어떻게 바꿀 수 있는지 이해할 수 있습니다.

현재 AI 이미지 생성기는 이러한 고유한 이해가 부족합니다. 그들은 텍스트 기호가 의미하는 바를 실제로 이해하지 못합니다. 이 생성기는 인공 신경망에 구축됩니다. 연습하다 엄청난 양의 이미지 데이터에서 연결을 “학습”하고 예측합니다.

교육 이미지의 모양 그룹은 다른 엔터티와 연결됩니다. 예를 들어 안쪽을 향하는 두 선이 만나면 연필 끝이나 집 지붕을 나타낼 수 있습니다.

그러나 텍스트와 수량의 경우 사소한 결함도 눈에 띄기 때문에 상관 관계가 놀라울 정도로 정확해야 합니다. 우리의 두뇌는 연필 끝이나 모자의 약간의 편차를 허용할 수 있지만 단어를 쓰는 방법이나 손의 손가락 수에 관해서는 그렇게 많이 허용하지 않습니다.

자세히 알아보기: 인간과 AI 모두 환각을 일으키지만 같은 방식은 아닙니다.

텍스트-이미지 템플릿에 관한 한 텍스트 아이콘은 선과 도형의 조합일 뿐입니다. 텍스트는 매우 다양한 스타일로 제공되고 문자와 숫자가 끝없이 배열되어 사용되기 때문에 모델은 텍스트를 효과적으로 재현하는 방법을 배우지 못하는 경우가 많습니다.

인스턴트 “KFC 로고”에 응답하여 생성된 AI 생성 이미지입니다.
인공지능을 상상하다

그 주된 이유는 훈련 데이터가 충분하지 않기 때문입니다. AI 이미지 생성기는 요구 사항이 많습니다. 더 많은 훈련 데이터 다른 작업에 비해 텍스트와 수량을 정확하게 표현합니다.

인공지능 손의 비극

복잡한 세부 사항이 필요한 작은 개체를 처리할 때도 문제가 발생합니다. 손처럼.

“열 손가락 소녀, 사실적”이라는 빠른 메시지에 대한 응답으로 두 개의 AI 생성 이미지가 제작되었습니다.
셔터스톡 AI

트레이닝 이미지에서 손은 종종 작고, 물체를 잡고 있거나, 다른 아이템에 의해 부분적으로 가려져 있습니다. AI가 “손”이라는 용어를 5개의 손가락을 가진 인간의 손의 정확한 표현과 연관시키는 것이 어려워집니다.

따라서 인공지능이 생성한 손은 왜곡되어 보이는 경우가 많습니다손가락이 더 많거나 적거나 소매나 지갑과 같은 물건으로 손이 부분적으로 가려져 있습니다.

수량과 관련하여 유사한 문제가 발생합니다. AI 모델은 “4”라는 추상적 개념과 같이 수량에 대한 명확한 이해가 부족합니다.

따라서 이미지 생성기는 많은 양의 사과가 포함된 무수한 이미지의 학습에 의존하여 “4개의 사과” 주장에 응답하고 잘못된 양으로 출력을 반환할 수 있습니다.

즉, 훈련 데이터 내의 매우 다양한 연관성이 출력 수량의 정확도에 영향을 미칩니다.

“테이블 위의 소다 캔 5개”에 대한 응답으로 3개의 AI 생성 이미지가 생성되었습니다.
셔터스톡 AI

인공 지능은 쓰고 셀 수 있습니까?

텍스트를 이미지로 변환하고 텍스트를 비디오로 변환하는 것은 AI에서 비교적 새로운 개념이라는 점을 기억하는 것이 중요합니다. 현재 생성 플랫폼은 미래에 기대할 수 있는 “충실도가 낮은” 버전입니다.

훈련 과정과 AI 기술이 발전함에 따라 미래의 AI 이미지 생성기는 정확한 시각화를 더 잘 생성할 수 있을 것입니다.

공개적으로 액세스할 수 있는 대부분의 AI 플랫폼은 최고 수준의 기능을 제공하지 않는다는 점도 유의해야 합니다. 미세한 스크립트와 볼륨을 생성하려면 최적화되고 맞춤화된 네트워크가 필요하므로 고급 플랫폼에 유료로 가입하면 더 나은 결과를 얻을 수 있습니다.

이문열

이문열은 bsnewspaper.com의 필진으로 뉴스, 정치, 경제, 기술, 스포츠, 엔터테인먼트, 라이프스타일 등 다양한 분야의 소식을 다룹니다. 독자들이 중요한 이슈를 쉽게 이해할 수 있도록 명확하고 균형 잡힌 보도에 중점을 두고 있으며, 유용한 정보와 시의성 있는 내용을 전달합니다. 또한 현재의 주요 사건과 독자들의 관심사에 맞는 이야기를 알기 쉽게 풀어내는 데 힘쓰고 있습니다.

AI 이미지 생성기가 그렇게 똑똑하다면 왜 입력하고 계산하기가 어렵습니까?

타이핑에 대한 AI 제한

인공지능 손의 비극

인공 지능은 쓰고 셀 수 있습니까?

홀란 멀티골 앞세운 노르웨이, 브라질 꺾고 월드컵 8강 진출

잉글랜드, 멕시코 꺾고 월드컵 8강 진출…60년 만의 정상 도전 계속

안선영, IELTS 시험 1분 지각으로 입실 불가…시험장 안내 놓고 온라인 공방

‘싱어게인4’ 출연 가수 김윤설 별세…향년 27세

김혜수, 김무열에 ‘불꽃 응원’…‘소년심판’ 인연 이어져

관련 기사

월드컵 부진 속에도 식지 않은 K리그 열기…팬들은 경기장을 떠나지 않았다

홀란 멀티골 앞세운 노르웨이, 브라질 꺾고 월드컵 8강 진출

잉글랜드, 멕시코 꺾고 월드컵 8강 진출…60년 만의 정상 도전 계속

안선영, IELTS 시험 1분 지각으로 입실 불가…시험장 안내 놓고 온라인 공방

회사 소개

메뉴

최근 뉴스

월드컵 부진 속에도 식지 않은 K리그 열기…팬들은 경기장을 떠나지 않았다

홀란 멀티골 앞세운 노르웨이, 브라질 꺾고 월드컵 8강 진출

잉글랜드, 멕시코 꺾고 월드컵 8강 진출…60년 만의 정상 도전 계속

인기 뉴스

월드컵 부진 속에도 식지 않은 K리그 열기…팬들은 경기장을 떠나지 않았다

홀란 멀티골 앞세운 노르웨이, 브라질 꺾고 월드컵 8강 진출

잉글랜드, 멕시코 꺾고 월드컵 8강 진출…60년 만의 정상 도전 계속