반응형

오픈AI에서 GPT-4o를 발표했습니다. 발표가 있기 전부터 영화 her에 대한 글이 돌면서 어떤 모델이 나올지 어느 정도 예측이 되긴 했었는데요. 예상대로 기존 텍스트에 더해 오디오(음성), 비전(비디오)를 통해 상호작용을 할 수 있는 모델이 발표되었습니다.

5월 15일 기준으로 오픈 ai의 경쟁자라 할 수 있는 구글에서도 구글 io를 통해 제미나이의 업데이트 기능을 발표했습니다. 이 글과 함께 보시면 좋을 것 같아요.

 

[제미나이] 구글IO 2024 내용과 구글의 미래

어제 GPT-4o 모델이 발표되면서 이슈가 되었었죠. 애초에 몇 주 전부터 오픈AI에서는 구글 제미나이를 견제하기 위해 구글 IO 2024를 진행하는 바로 전 날에 GPT 모델에 대한 새로운 발표를 할 것이라

combee.tistory.com


1. GPT-4o

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

오픈AI에서는 GPT-4o 모델을 위의 문구로 소개하고 있습니다. 

 

사용자가 스마트폰을 보면서 말을 하면 AI도 그에 맞게 대답해주고, 영상으로 보고 있는 것도 인식해서 그에 맞게 대답해줍니다. 영화 HER를 보신 분들은 이 장면이 기억나실겁니다. 상의 포켓에 보면 스마트폰의 카메라가 보이는데요. 그 카메라로 AI가 사용자가 보고 있는 것을 동일하게 인식해, 음성과 함께 비디오를 인식하면서 사용자와 상호작용합니다. 

상의 포켓에 있는 휴대폰으로 비전을 인식해 대답을 하는 장면
상의 포켓에 있는 휴대폰으로 비전을 인식해 대답을 하는 장면

영화 HER를 보면서 좋은 작품으로 평가했던게 얼마 지나지 않아 현실적으로 가능한 수준의 AI를 보여준다는 점이었습니다. 이제 HER도 나온지 꽤 시간이 지난 영화가 되었지만 HER에 나온 장면이 현실에 구현되면서 해당 작품이 더 의미있는 작품이였단 것이 느껴지네요.

 

이렇게 사용자와 상호작용을 하기 위해서 가장 중요한 것은 실시간성이라고 생각합니다. 사용자가 질문했을 때 얼마나 빨리 대답해주냐에 따라 사용자가 실제로 내가 상호작용을 하고 있다는 것을 느낄 수 있기 때문입니다. 오픈AI에서는 실시간성에 대해 아래와 같이 설명하고 있습니다.

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to 
human response time(opens in a new window)
 in a conversation.

요약하자면 인간의 응답 시간과 비슷하다는 것입니다. 이 점에서 제미나이랑 조금 차이가 느껴지는데요. 제미나이와 지피티를 모두 써본 분들은 아시겠지만 지피티는 질문을 하면 대화하듯이 바로 대답을 생성해줍니다. 반면 제미나이는 ... 화면이 뜨면서 대답이 모두 생성되면 답변을 보여주죠. 실시간성을 보았을 때는 이런 곳에서 지피티의 장점이 보입니다.

 

일단 중요한 점은 저희는 한국인이기 때문에 한글을 쓸 것인데요. 영어 외의 언어에서도 큰 개선이 이뤄졌다고 하고, 가격도 저렴해졌다고 합니다. 가격이 저렴해졌다고는 해도 영어로 사용할 때보다 한글로 사용하게 되면 비용이 조금 더 들기는 할겁니다. 전에 파인튜닝을 해보았을 때 한글이 조금 더 비용이 발생하긴 하더라고요.

모델별 성능 비교
모델별 성능 비교

성능을 보면 GPT-4 터보 수준의 성능을 달성하면서 다국어, 오디오, 비전을 제공한다고 강조하고 있습니다. 근데 성능 관련해서는 제미나이도 그렇지만 각 기업에 유리한 평가 기준을 통해 평가하는 경향이 있어 그렇게 신경 써서 보지는 않아도 될 것 같습니다. 더구나 저 부분들은 모두 영어로 평가한 것이기 때문에 한글을 사용하는 한국인들이라면 더 그렇죠. 실제로 써보면서 대답하는 퀄리티를 보는게 더 정확할 겁니다. 일단 경험적으로는 무료로 제공되는 GPT 모델 정도만 되도 일상에서 사용(스케줄 관리, 단순한 정보 찾기, 일상 대화 등)에서는 무리가 없어 보입니다.

 

평가를 해보자면 성능적으로는 지난 번에 비해 크게 달라지지 않았다는 것을 알 수 있습니다. 사용 방식의 변화가 크게 달라졌고 이에 대한 평가가 이뤄져야 하죠. 사실 기존 모델들도 쓸만한 수준이였기에 이번에는 성능의 향상에 대한 발표가 아니라도 눈 감아줄 수 있다고 생각합니다. 사용자 입장에서 중요한 것은 얼마나 편하게 사용할 수 있냐와 비용이니까요. 비용도 절감했고 사용감 개선(음성+비디오)도 되었기 때문에 오픈AI의 행보가 정말 좋다고 생각합니다.


오픈AI 측의 말을 보면 현재 무료 사용자도 GPT-4o를 사용할 수 있도록 하고, 유료 사용자에게는 최대 5배 더 높은 메시지 제한을 제공한다고 합니다. 

GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT. We are making GPT-4o available in the free tier, and to Plus users with up to 5x higher message limits. We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.

그 뜻은 무료 사용자는 하루에 사용할 수 있는 답변 수 제한이 있을 것이고, 유료 사용자도 답변 수 제한이 있을 것이라는 겁니다. 현재는 사실상 테스트 기간이라고 생각되기 때문에 추후 더 업그레이드 하고 사용자들에게 없어서는 안 되는 기능이 된다면 가격을 높여서 이익을 추구하는 방향으로 갈 것 같습니다. 쿠팡을 생각하면 좋을 것 같아요. 처음에는 로켓배송 멤버십 가격이 쌌지만 최근 올리고 있는 것처럼요.

 

미래의 모습을 그려낸 영화가 현실화 되고 있어 기술의 발전이 정말 빠르다고 생각되기도 하고 정말 재미있네요. 
영화 HER에서 AI와 연애를 하면서 결국 이별을 하는 이야기가 나오는데, 그 중 AI가 말한 문구가 생각납니다. 

인간의 사고와 AI의 사고 수준(속도 등)이 달라 당신을 이해하기 어렵다. 사랑은 어떤 한 사람이라는 책을 읽는 과정이고 난 그 책을 사랑하지만 그 사람에 맞춰 천천히 읽다보니 단어들이 서로 분절 되어 엄청난 공간이 생겨버리고, 난 그것을 이해할 수 없게 된다.

HER에 보면 처음에는 사람들이 자신이 AI와 연애를 하고 있는 것을 숨기다가 영화 후반부에 가면 많은 사람들이 숨기지 않고 드러내는 장면들이 나옵니다. 나중에 시간이 지나고 나면 이런 장면들이 실제로도 많이 나타날 것 같아요.


내일은 구글의 IO가 있어서 구글에서 제미나이로 어떤 것을 보여줄지도 기대 됩니다. 구글도 비슷한 기능이 구현되지 않을까 생각되긴해서 기대가 되는데 내일 구글의 IO가 나오면 이것도 한 번 리뷰를 해보도록 하겠습니다.

반응형

+ Recent posts