진짜와 가짜의 경계는 모호하기만 하다.
어찌보면 가짜의 세상이
더욱 큰 것인지도 모른다.
수 많은 현실은 논픽션화 되고
가짜가 섞여 픽션화 되어간다.
AI에서 이야기되는 합성데이터는
그리 새로운 것이 아니다.
우리 인간의 세상에 흔한 것이다.
소설과, 영화 드라마로
또한 세월이 지난 것은 신화로
후손의 학습 데이터로 기록된 것을
단지 모방한 것에 불과하다.
AI와 ML(Machine Learning) 개발에 있어 실패의 원인 대부분은 훈련 데이터 부족이라 한다. 컴퓨터에 일일이 논리적 법칙을 코드화 하는 노력의 한계로, 이제는 신경망을 이용한 학습에 많은 부분을 의존하고 있는 것이 현재이다.
데이터를 이용한 학습데이터의 확보 개념은 구글 홈페이지를 보면 이해할 수 있다. 광고와 난삽한 기사들이 난무하고 있는 대부분 사이트들의 홈페이지와는 차별화 되는 모습이다. ‘당신이 원하는 내용을 신경 거슬리지 않고 검색하여 주십시오. 여기는 돗대기 시장이 아닙니다.’라고 이야기하는 것 같다.
세상에는 수준이이라는 것이 있다. 무슨 생각으로 그러한 행동을 하는 지를 이해하여야 보인다. 올해에도 ‘최고의 검색 능력자’를 선정하여 발표한 것을 보아도 알 수 있다. 최고의 검색 방식을 수 많은 사용자에게 경험하게 하여, 이 데이터를 학습에 사용하는 의미를 이해하여야 한다.
데이터 확보는 AI 개발에 절대적이다. 더 많은 차를 팔고, 이 데이터를 다시 훈련 데이터로 사용하는 테슬라를 다른 자율주행 회사들이 따라가기 어려운 현실의 근본이다. 그렇다면, 이와 같은 훈련 데이터 부족을 극복하는 방법은 없는가?
생각의 전환은 새로운 기회를 가져다 준다. 문제 해결을 위하여, 현실의 논리를 반영한 합성데이터를 활용하면 된다는 생각이 설득을 얻고 있다. 한마디로 가짜 데이터이다. 현실 데이터를 기본으로 통계적으로 가능한 상황을 전제로 만들어진 데이터이다. 현재 그 많은 데이터를 보유하고 있는 테슬라 또한 합성 데이터를 사용하고 있다고 한다.
과연 합성데이터는 가짜 데이터로 보아야 하고, 문제성이 있는 것인가? 아니면 새로운 개념인가? 인공지능은 지능을 모방하는 것으로 출발하였다. 인간 지능 개발을 위하여 우리는 태어난 아이에게 교육을 시킨다. 교육을 학습이라고 한다. 학은 타인의 체험을 배우는 것이며, 습은 스스로 경험을 하는 것이다. 학을 위하여 우리는 체계화된 논리적 내용을 가르치는 한편, 다른 한편으로 다른 사람들의 경험을 겪게한다. 다른 사람이 직접 경험한 것을 기록한 것이 논픽션이며, 가상의 경험이 핏견이다. 소설과 영화 등 다양한 방식으로 사람들을 교육하게 된다.
진짜와 가짜의 경계는 모호하기만 하다. 어찌보면 가짜의 세상이 더욱 큰 것인지도 모른다. 소설과 영화, 드라마 없는 세상은 지루하기만 한 세상이며, 수 많은 현실이 이야기로 뭉뚱그려진 진가짜의 공간으로 옮겨진다 세월이 지남에 따라 신화가 되어 픽션과 논픽션 경계가 없어진 상태로 변화하기도 한다.
생각해 보면, 합성 데이터는 그리 새로운 것이 아니다. 우리 인간의 세상에 흔한 것이다. 우리가 개념화하여 적용하지 못하였을 뿐이다.