반응형

어제 GPT-4o 모델이 발표되면서 이슈가 되었었죠. 애초에 몇 주 전부터 오픈AI에서는 구글 제미나이를 견제하기 위해 구글 IO 2024를 진행하는 바로 전 날에 GPT 모델에 대한 새로운 발표를 할 것이라는 소식을 전했었습니다. 어제 발표 전부터 영화 HER에 대한 언급이 나타나면서 어떤 모델이 나올지 예상이 됐었고, 예상대로의 발표가 나왔었습니다. 오늘은 구글 IO를 보고 구글에서 어떤 것을 개발하고 있는지, GPT-4O 모델에 대항해 제미나이는 어떤 업그레이드 소식이 있는지 알아보겠습니다.

 

[GPT] GPT-4o 모델과 영화 Her

오픈AI에서 GPT-4o를 발표했습니다. 발표가 있기 전부터 영화 her에 대한 글이 돌면서 어떤 모델이 나올지 어느 정도 예측이 되긴 했었는데요. 예상대로 기존 텍스트에 더해 오디오(음성), 비전(비

combee.tistory.com


1. Project Astra

제미나이 모델을 기반으로 실시간으로 캡처된 영상과 음성 데이터를 분석하여 질문에 답변할 수 있는 기능입니다. 이 프로젝트 아스트라가 어제 GPT-4o가 발표한 기능과 완전 같은 기능입니다. 역시 구글에서도 해당 기능에 대해 준비해와서 보여주네요. 두 기업의 경쟁은 이제 어느 쪽의 성능이 좋을까로 귀결될 것으로 보입니다. 

영상과 음성을 통합하여 답변을 하는 기능
영상과 음성을 통합하여 답변을 하는 기능(사용자 질문)
위 이미지의 질문에 대한 제미나이의 대답
위 이미지의 질문에 대한 제미나이의 대답

개인적으로 재미있었던 부분은 아래의 이미지입니다. 화이트보드에 그려져 있는 두 고양이 그림과 사용자가 들고 있는 물음표 박스를 보고 시야에 보이는 것이 슈뢰딩거의 고양이 실험이라는 것을 알아채고 대답을 해주네요. 

슈뢰딩거 실험에 대한 제미나이의 대답
슈뢰딩거 실험에 대한 제미나이의 대답

2. Veo Generative AI video Model

텍스트, 이미지, 동영상 프롬프트를 기반으로 고화질 동여상을 생성하는 새로운 생성형 AI 비디오 모델입니다. 기존 텍스트를 기반으로 영상을 생성해주는 서비스들이 있었던 것으로 알고 있을 겁니다. 여기에 더해 자기가 원하는 스타일의 이미지나 동영상을 추가해주면 텍스트, 이미지, 동영상을 기반으로 고화질 영상을 생성해주는 서비스 모델이라고 하네요. 

veo 생성형 ai 비디오 모델
veo 생성형 ai 비디오 모델. 텍스트, 이미지, 영상을 기반으로 새로운 영상을 생성해준다

3. Trillium CPU

향상된 성능을 제공하는 6세대 TPU입니다. TPU는 Tensor Processing Unit으로 구글에서 2016년에 발표한 딥러닝용 NPU를 모아놓은 하드웨어 입니다. 개인적으로 이 부분이 구글의 강점이라고 생각하는데 자사의 AI 모델의 학습, 실행에 자신들이 설계한 TPU를 사용하기 때문에 아무래도 다른 회사의 반도체를 사용하는 것보다 훨씬 효율이 좋겠죠. 

4. Axion Processor

업계 최고의 성능과 에너지 효율을 자랑하는 새로운 Arm 기반 맞춤형 CPU라고 합니다. 이 부분은 설명을 아주 짧게 하고 지나가서 바로 넘어가도록 하겠습니다.

5. Gemini AI Google Search

검색 결과를 사용자가 이해하기 쉽게 새로운 방식으로 구성하는 검색 기능입니다. 아마 크롬에 달릴 것 같고, 구글에서 검색을 할 때 출처나, 더 향상된 답변을 하는데 도움을 줄 것으로 보여요. 최근 구글에서 검색해보면 최상단에 AI 요약이라고 해서 나타나는 것을 보셨을 수 있는데 그 부분의 업그레이드 버전으로 보면 됩니다. 

현재 구글에서 검색하면 AI 요약, 미리보기가 나오는데 그 기능의 확장판이다
현재 구글에서 검색하면 AI 요약, 미리보기가 나오는데 그 기능의 확장판이다

6. 그 외 Gemini AI 기능들

Gemini AI Video Search(영상을 통해 질문에 대한 답변을 검색하는 기능), Gemini AI Live Voice Chat(음성 대화를 통해 질문에 답변하는 기능), Gemini AI Gems(사용자가 원하는 주제에 대한 맞춤형 질문 도구), Gemeni AI Context Aware(상황에 맞게 도움을 제공하는 기능) 등이 소개되었는데요. 이 기능들 모두가 1번에서 설명드린 아스트라 프로젝트에 속하는 기능들이고, 이 기능들이 모두 합쳐져 GPT-4O와 같은 영상, 이미지, 텍스트를 기반으로 사용자와 소통할 수 있게 됩니다. 구글의 현재까지의 행보를 보았을 때는 각 기능을 모두 모듈화 하여 API 형태로 제공할 것으로 보여요. 물론 오픈AI도 각 기능을 모두 모듈화 하여 API 형태로 제공할 가능성이 높습니다. 

Gemini AI Video Search 시연
Gemini AI Video Search 시연

7. 안드로이드 업데이트

안드로이드 15에 AI Power Search라는 검색 기능 향상과 Android 15 with Gemini Nano With Multimodality라고 해서 안드로이드에서도 위의 소개된 모든 Gemini의 기능을 사용할 수 있도록 하는 기능이라고 합니다.

 

8. 결국 구글이 바라는 최종 목표는 구글 생태계 구축

구글은 삼성 스마트폰에도 AI 기능을 제공하고 있고, 국내에는 정식 출시 되지 않았지만 구글 픽셀을 가지고 있기 때문에 안드로이드로 제미나이의 기능을 확장한 것 같습니다. 무엇보다 중요한게 구글은 구글 네스트 같은 구글 홈 장비를 가지고 있는데 추후에는 구글 홈 장비에도 모두 제미나이를 이식해서(최근 구글 어시스턴트를 제미나이로 대체한다는 소식도 봤던 것 같습니다) 모든 하드웨어 제품군을 제미나이로 통합하고 연계할 것으로 예상됩니다. 이렇게 되면 애플의 전략인 강한 연동성으로 사용자를 생태계에서 못 빠져나가게 하는 효과를 볼 수 있을 것으로 보여요. 그래서 애플도 최근 타이탄(미래 자동차) 프로젝트를 접으면서 AI를 외치고 있죠. 아직 제대로 된 결과는 못 보여주고 있지만요.

구글이 하고 있는 행보는 올바르다고 생각됩니다. 지금까지는 오픈AI에 비해 뭔가 한 발 느리다, 성능이 조금 떨어지는 것 같다라는 평가를 듣고 있지만, AI에서 가장 핵심적인 모델로 사용되고 있는 트랜스포머 모델을 최초로 개발한 것도 구글이고 자체 칩 보유, 자본력 보유(광고 및 유튜브 등), 자체 클라우드(구글 클라우드) 보유, 하드웨어 제품군 보유(이 부분은 좀 더 개선해서 전체적인 사용률을 올려야 할 것 같긴 함) 등 장점을 많이 가지고 있는 기업입니다. 아무래도 하드웨어 제품군에서 애플이나 삼성에 비해 선호도가 떨어지기 때문에 최근 일본에서 강력한 가격 마케팅을 통해 점유율도 올리려는 노력을 하고 있고, 제미나이의 성능이 정말 일반 사용자들에게도 실생활에 도움이 된다고 하면 하드웨어 제품군 점유율을 높이는데 도움을 줄 것 같아 기대가 되네요. 


이번 발표는 사실 기능적으로는 별로 신기한 게 없었습니다. 어제 오픈 AI에서 미리 발표하기도 했고, 오픈 AI는 그에 앞서서 미리 her를 계속 언급하면서 어떤 기능이 발표될 지 보여주고 있었으니까요. 구글이 절대 오픈AI에 비해 기술력이 밀리는 기업이 아니기 때문에 구글도 같은 기능을 발표하겠구나 하고 생각하고 있었습니다. 어쨌든 두 기업이 AI쪽에서는 가장 기술력이 좋은 기업이고, 서로 선의의 경쟁을 하는 것 같아 좋은 것 같습니다.

반응형
반응형

2월 1일자로 바드에 제미나이 프로가 업데이트 되었습니다. 제미나이 프로가 업데이트 되면서 Imagen2 모델을 기반으로 무료 이미지 생성 AI를 이용할 수 있게 되었는데요. 사용 방법 알아보도록 하겠습니다.


1. 바드 접속

검색해서 접속하거나 아래 링크를 눌러줍니다.

https://bard.google.com/chat

 

Google Bard - 생성형 AI 챗봇 사이트

생성형 AI 기술이 적용된 챗봇 AI 사이트, Google Bard로 혁신적인 생산성을 경험하세요.

bard.google.com

바드로 접속
바드로 접속

2. 프롬포트에 명령어 입력

프롬포트에 이미지 생성 명령어를 입력합니다. 여기서 중요한 건 영어로 입력해야 이미지를 생성해주더라고요. 그래서 번역기를 사용해서 입력해주시면 됩니다. 저는 Create an image of a dog riding a surfboard로 입력하겠습니다. 입력해보면 아래와 같이 이미지를 잘 생성해줍니다. 속도도 빠른 편이에요. 텍스트로 대답해주는 것과 차이가 없습니다.

대화형 콘솔에 입력
대화형 콘솔에 입력

그런데 명령어를 입력할 때 규칙이 있는 것 같아요. 오류인 것 같은데, 이미지를 잘 생성하기 위해서는 Create an image of ~ 로 시작하는 문구를 작성해줘야 잘 이미지를 만들어줍니다.

예를 들어서, 아래와 같이 입력을 하면 이미지를 생성해주지 않지만, Create an image of ~ 로 시작하면 이미지를 잘 생성해줍니다.

문구에 따른 다른 결과
문구에 따른 다른 결과
문구에 따른 다른 결과2
문구에 따른 다른 결과2

차이가 있죠? 그래서 영어 번역기를 쓰되, Create an image of ~ 로 시작하는 문구로 입력해주시면 됩니다.


요약: Create an image of ~ 로 시작하는 문구로 이미지 생성 명령을 하면 바드를 무료 이미지 생성 툴로 활용할 수 있다.

함께 보면 좋은 글) 구글 멀티모달 모델 제미나이란?

 

구글 범용 AI 모델 제미나이(Gemini)

구글이 AI 범용 모델 제미나이(Gemini)를 발표하며 주가가 약 5% 급상승했습니다. 얼마전 GPT 개선 모델 발표하면서 구글에서도 제미나이 관련 기사들이 몇 건씩 올라왔었는데, 제미나이 발표도 된

combee.tistory.com

 

반응형

+ Recent posts