본문 바로가기

카테고리 없음

생성형 AI 기술이란? AI 유형별 사례 및 상용화 서비스 총정리

 

'생성형 AI 기술'에 대해 들어보셨나요. 요즘 뉴스에 인공지능과 관련된 기사가 넘쳐납니다. 인류 역사상 그 어느 때보다도 인공지능과 가까워진 시대라 할 수 있습니다. ChatGPT, 딥페이크 등을 뉴스에서 들어보셨을 것입니다. 해당 사례들은 모두 생성형 AI가 활용된 기술 사례들입니다.

 

오늘은 5차 산업 혁명을 이끌 '생성형 AI 기술'이 사용된 사례와 상용화된 서비스를 확인해 보겠습니다. 우리의 일상생활 및 업무에서 어떻게 사용할 수 있을까요?

 

목차

  1. '생성형 AI' 기술이란?
  2. 텍스트 제작
  3. 음성 제작
  4. 이미지 제작
  5. 동영상 제작

1. '생성형 AI' 기술이란?

 

영문으로는, 'Generative AI'라고 합니다. 말이 쉽게 와닿지는 않습니다만, 무언가를 만들어낸다는 의미이겠죠. '생성형 AI'는 글자, 이미지, 음성 등 데이터를 반복 학습한 뒤, 사용자가 요구하는 자료를 만들어주는 인공지능을 말합니다.

 

제대로 동작하기 위해서는 인공지능이 다양한 예시 자료를 학습할 필요가 있습니다. 예를 들어, 무엇이 고양이인지 인지하기 위해서 수천, 수만 장의 고양이 사진을 학습해야 하겠죠. 데이터의 양이 많고, 질이 우수할수록 반복 학습에 유리합니다.

 

또한, 일치하는 자료와 불일치하는 자료를 비교하는 학습도 끊임없이 반복해야 합니다. 고양이를 명확히 인지시키기 위해, 강아지 사진을 보여주며, 이것은 고양이가 아니라고 학습시키는 것입니다. 이때 활용되는 방법이 생성적 대립 신경망(GAN, Generative Adversarial Network)’입니다. 가짜 예시를 계속 만들어내는 쪽과 이를 계속 판별시키는 쪽이 대립하며, 결과적으로 실제와 유사한 방향으로 나아갑니다.

 

이러한 기술은 이미 우리의 생활에 가까이 존재합니다. 다만, 아직 잘 몰라서 사용하고 있지 못할 뿐이지요. 때문에 실제 사례들을 알려드리려 합니다. 종류는 크게 네 가지분야로 나뉩니다.


 2. 텍스트 제작

 

'텍스트 생성 AI'는 문자로 된 데이터를 학습하여 요청하는 결과를 만들어주는 서비스를 말합니다. '텍스트 투 텍스트'라고 합니다. 세계적인 리서치 회사들은 관련 시장이 6년 안에 3배 이상 성장할 것으로 예측했습니다

 

우리가 일상생활에서 문자를 활용하는 업무는 굉장히 다양합니다. 광고 문구, 소설 및 수필, 뉴스, 편지, 가사 등이 모두 글자로 이루어져 있습니다. 특히, 뉴스 분야는 몇 년 전부터 인공지능이 데이터를 수집하여 자동으로 기사를 만들어 줍니다. 주어진 사실을 수집하여 글을 작성하는 것은 간단한 일에 속합니다. 

 

이제는 더 나아가서 창작의 분야까지 나아갔습니다. 창의력을 요구하는 소설, 톡톡 튀는 광고 문구, 마음을 끌어당길 노랫말 등도 모두 컴퓨터가 작성할 수 있습니다. 텍스트 AI의 결정판은 '검색엔진형' 또는 '대화형'입니다. 평어로 질문을 하면 그에 적합한 대답을 해줍니다. 단순한 요약부터 문장의 정리, 창작까지 모든 것이 가능합니다. 

 

각 분야별로 특화된 서비스가 존재하나, 이번 글에서 자세한 분석은 하지 않겠습니다. 개별적인 사용법은 점차 게시해 나갈 예정입니다. 이번에는 간략하게 아래의 표와 같이 분류해 보았습니다. 

 

분 류 종 류
소설 작성 뤼튼, AI Dungeon, 아나트, 노블, 홀로, 노벨리스트, 라이트르미
검색 엔진형 / 대화형 ChatGPT(오픈AI), KoGPT(카카오), 써치GPT(네이버), 바드(구글), 클로드(앤트로픽)
광고, 제목 등 문구 작성 COPY AI, Rytr

 

검색엔진형의 경우, 특정 분야의 글쓰기에 국한되지 않습니다. 때문에 완전한 상용화까지 더 오랜 시간이 걸릴 것으로 생각됩니다. 현재 사용 가능한 검색엔진형 제품은 ChatGPT이나, 다른 대기업들도 올해 내 출시할 것으로 예상됩니다.

 

< 참고 링크 >

 


3. 음성 제작

 

유튜브에서 정보 전달을 목적으로 만들어진 동영상을 보신 적 있나요. 출연자 없이 PPT와 사진으로 만들어진 동영상을 많이 보셨을 것입니다. 여기 나오는 음성들은 모두 본인의 목소리일까요? 그렇지 않습니다. 직접 대본을 작성하여 녹음을 하는 사람들도 있겠지만, 상당수는 대본을 작성하여 '음성 생성 AI'에게 맡깁니다.  

 

타입캐스트-대본-음성-편집-화면
타입캐스트 대본 및 음성 편집 화면

 

 

예전에는 컴퓨터가 글자를 읽어줄 때, 어조도 똑같고, 음높이도 똑같아서 듣기가 굉장히 불편했습니다. 기계의 음성이라는 것을 바로 알 수 있었습니다. 하지만, 현재는 음성 데이터를 반복 학습하여 사람의 목소리를 그대로 구현합니다. 평범한 사람의 어눌한 말투보다 오히려 더 나을 지경입니다.

 

이러한 제품은 현재 타입캐스트, 클로바(CLOVA) 보이스 등이 있습니다. 타입캐스트는 부분 유료화하여 운영 중이며, 클로바 보이스는 데모 테스트 중입니다. 

 


4. 이미지 제작

 

최근까지 가장 큰 이목을 끌었던 분야는 바로 '이미지 생성 AI'입니다. '미드저니'를 사용하여 그린 그림이 캘리포니아에서 개최된 미술전에서 1위를 차자하기도 하였습니다. 컴퓨터가 그렸다고 믿기지 않을 만큼, 생동감 넘치는 그림이 나옵니다.

 

이와 관련하여, 저작권 논란이 생기기도 하였습니다. 컴퓨터는 수만 장의 이미지를 학습하여 그림을 그려줄 텐데, 대부분 저작권 허가를 받지 않았습니다. 이렇게 만들어진 그림의 저작권이 누구한테 속하는지도 문제입니다. 원본 이미지의 소유자, 프로그램 개발사, 프로그램으로 그림을 그린 사람 중 누구에게 소유권을 줘야 할까요.

 

비디스커버-생성-이미지-1번비디스커버-생성-이미지-2번
카카오브레인 비 디스커버(B^ DISCOVER)에서 탄생한 그림들(텍스트 투 이미지)

 

논쟁을 불러올 만큼, 이미지 AI 분야는 빠른 속도로 발전 중입니다. 그 종류도 굉장히 다양합니다. 다만, 어떤 화풍을 주로 습득했는지에 따라 전문 분야가 다릅니다. 미술작가마다 잘 그리는 종류가 다르다고 할까요. 대략적으로 아래의 표와 같이 분류해 보았습니다. 물론 사용자에 따라, 다른 결과를 이끌어낼 수도 있습니다. 

 

분 류 서비스 종류
인물화 portrait AI
풍경화 크레용(Craiyon), 고갱2(gaugan2)
플랫폼 플레이그라운드
반 실사 스테이블 디퓨전,  칼로(Karlo)
상상화 DALL.E 2, 미드저니, 우보 아트(Wombo art)
애니메이션 Novel, 아트브리더(Artbreeder)
채색 네이버 자동채색 서비스
심플 아이콘 오토드로우(autoddraw)

 

 

국내 개발사인 '카카오 브레인'에서 개발 중인 '칼로(Karlo)'도 현재 데모 테스트 중이니, 한 번 사용해 보시면 좋을 것 같습니다. 

 

<참고 링크>


5. 동영상 제작

 

불과 3~4년 전, 유튜브에 트럼프, 오바마 얼굴을 합성한 딥페이크가 업로드되었습니다. 사람들은 경악했었죠. 동영상 속 인물이 실제 인물과 큰 차이가 없었습니다. 인공지능 기술 발전이 코앞에 다가왔음을 인지하는 순간이었습니다.

 

현재는 이보다 더 진보하고 상용화되어 일반 대중들도 딥페이크, 연예인을 합성한 숏츠를 쉽게 만들 수 있게 되었습니다. 물론, 범죄에 악용될 경우, 처벌될 수 있음을 명심해야 합니다.

 

'영상 생성 AI'는 다양한 방식으로 발전했습니다. 이미지를 몇 개 넣으면 영상을 만들어주는 기술, 가상 인간을 만들어주는 기술, 내용을 입력하면 그에 맞는 영상을 만들어주는 기술 등이 있습니다. 이러한 기술에 맞춰 사용 가능한 서비스들을 아래 표로 정리하였습니다.

 

분류 서비스 종류
상품 및 숏컷 비디오 Kaiber,  브이캣(VCAT)
가상 인간  타입캐스트, AI STUDIOS,
텍스트 투 비디오  Imagen video(구글), Make a video(메타)
딥페이크  Reface, Jiggy

 

 


아직도 무궁무진한 발전이 예상되는 분야입니다. 직접 체험하며 기술 발전을 직접 느껴보시길 바랍니다.

 

반응형