최근 인공지능 기술의 실용화가 빠르게 진행되고 있다.

 

2022년 봄에 발표된 OpenAI사의 DALL-E 2는 언어로부터 이미지를 만들 수 있는 인공지능 모델이다. 2021년 초에 처음 공개 되었으며, 2022년 4월 DALL·E 2가 공개되었다. 화가 살바도르 달리의 이름을 차용하였다. 문자의 입력 혹은 이미지 파일을 함께 입력하면 인공지능이 이미지를 생성하는 시스템이다.

     

인공지능 스타트업 Stability.AI 또한 오픈소스 이미지생성 시스템 Stable Diffusion을 발표하였다. 문자 입력에 따라 이미지를 생성하는 시스템이다. 특징은 고화질의 실사 이미지를 생성할 수 있다는 것이다. 독립 연구기관 Midjourney 또한 문자로부터 이미지를 생성하는 오픈 베타버전의 인공지능 프로그램을 공개하였다.

   

문자를 입력하여 이미지를 넘어 비디오를 만들어 주는 인공지능 모델 또한 등장하였다. 비록 5.3초의 길이의 제약과 해상도의 제약을 갖고 있으나 구글은 문자-비디오 생성 모델을 선보였다. 또한 메타도 문자로부터 짧은 비디오 영상을 생성하는 인공지능 시스템 Make-A-Video 시스템을 공개하였다.

   

그리고 OpenAI는 언어모델 ChatGPE를 최근에 출시하였다. 최근의 ChatGPT는 2020년 첫 선을 보였다. 그 동안의 많은 시행착오와 학습을 통하여 현재의 모습을 갖추고 있다. 사람과 대화를 하는 듯한 느낌을 주는 시스템으로, 기존에 정적인 데이터를 검색하는 방식을 벗어나 질문에 대한 답을 생성하는 방식으로의 변환을 가져왔다.

 

인공지능 기술의 변화는 지속되고 있다. 그것도 빠른 속도로 변화하고 있다. OpenAI사는 현재 ChatGPT를 위하여 사용하는 인공지능 엔진 GPT-3의 기능을 강화한 GPT-4를 개발하고 있다. 앞으로 개발된 GPT-4는 언어 이상의 것을 다룰 수 있을 것이라 추측된다. OpenAI는 언어 중심 모델인 ChatGPT와 이미지 생성 시스템인 DALL_E가 독립적인 상태이다. 그러나 이 두개의 모델을 결합하여 문장과 함께 이미지를 다룰 수 있는 보다 종합적 시스템 개발이 진행될 것으로 예상된다.

   

이와 같은 추세는 DeepMind의 시각언어모델 Flamingo의 발전에서 볼 수 있다. 이 모델은 자연어를 사용하여 이미지를 만든다. 그 후 DeepMind사는 보다 범용적으로 사용할 수 있는 Gato 시스템을 선보였다. 심층 신경망 모델로, 대화를 하고, 이미지를 설명하고, 비디오 게임을 수행하며, 로봇을 제어하여 블록 쌓기 등의 작업이 가능한 시스템이다.

   

이와 같이 다른 두 가지 상이한 전문성을 가진 모델들을 결합하여 하나의 모델로 통합함으로써, 보다 보편적 인공지능 모델 개발에 대한 노력이 지속될 것으로 전망된다.

 

+ Recent posts