반응형

오픈AI에서 GPT-4o를 발표했습니다. 발표가 있기 전부터 영화 her에 대한 글이 돌면서 어떤 모델이 나올지 어느 정도 예측이 되긴 했었는데요. 예상대로 기존 텍스트에 더해 오디오(음성), 비전(비디오)를 통해 상호작용을 할 수 있는 모델이 발표되었습니다.

5월 15일 기준으로 오픈 ai의 경쟁자라 할 수 있는 구글에서도 구글 io를 통해 제미나이의 업데이트 기능을 발표했습니다. 이 글과 함께 보시면 좋을 것 같아요.

 

[제미나이] 구글IO 2024 내용과 구글의 미래

어제 GPT-4o 모델이 발표되면서 이슈가 되었었죠. 애초에 몇 주 전부터 오픈AI에서는 구글 제미나이를 견제하기 위해 구글 IO 2024를 진행하는 바로 전 날에 GPT 모델에 대한 새로운 발표를 할 것이라

combee.tistory.com


1. GPT-4o

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

오픈AI에서는 GPT-4o 모델을 위의 문구로 소개하고 있습니다. 

 

사용자가 스마트폰을 보면서 말을 하면 AI도 그에 맞게 대답해주고, 영상으로 보고 있는 것도 인식해서 그에 맞게 대답해줍니다. 영화 HER를 보신 분들은 이 장면이 기억나실겁니다. 상의 포켓에 보면 스마트폰의 카메라가 보이는데요. 그 카메라로 AI가 사용자가 보고 있는 것을 동일하게 인식해, 음성과 함께 비디오를 인식하면서 사용자와 상호작용합니다. 

상의 포켓에 있는 휴대폰으로 비전을 인식해 대답을 하는 장면
상의 포켓에 있는 휴대폰으로 비전을 인식해 대답을 하는 장면

영화 HER를 보면서 좋은 작품으로 평가했던게 얼마 지나지 않아 현실적으로 가능한 수준의 AI를 보여준다는 점이었습니다. 이제 HER도 나온지 꽤 시간이 지난 영화가 되었지만 HER에 나온 장면이 현실에 구현되면서 해당 작품이 더 의미있는 작품이였단 것이 느껴지네요.

 

이렇게 사용자와 상호작용을 하기 위해서 가장 중요한 것은 실시간성이라고 생각합니다. 사용자가 질문했을 때 얼마나 빨리 대답해주냐에 따라 사용자가 실제로 내가 상호작용을 하고 있다는 것을 느낄 수 있기 때문입니다. 오픈AI에서는 실시간성에 대해 아래와 같이 설명하고 있습니다.

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to 
human response time(opens in a new window)
 in a conversation.

요약하자면 인간의 응답 시간과 비슷하다는 것입니다. 이 점에서 제미나이랑 조금 차이가 느껴지는데요. 제미나이와 지피티를 모두 써본 분들은 아시겠지만 지피티는 질문을 하면 대화하듯이 바로 대답을 생성해줍니다. 반면 제미나이는 ... 화면이 뜨면서 대답이 모두 생성되면 답변을 보여주죠. 실시간성을 보았을 때는 이런 곳에서 지피티의 장점이 보입니다.

 

일단 중요한 점은 저희는 한국인이기 때문에 한글을 쓸 것인데요. 영어 외의 언어에서도 큰 개선이 이뤄졌다고 하고, 가격도 저렴해졌다고 합니다. 가격이 저렴해졌다고는 해도 영어로 사용할 때보다 한글로 사용하게 되면 비용이 조금 더 들기는 할겁니다. 전에 파인튜닝을 해보았을 때 한글이 조금 더 비용이 발생하긴 하더라고요.

모델별 성능 비교
모델별 성능 비교

성능을 보면 GPT-4 터보 수준의 성능을 달성하면서 다국어, 오디오, 비전을 제공한다고 강조하고 있습니다. 근데 성능 관련해서는 제미나이도 그렇지만 각 기업에 유리한 평가 기준을 통해 평가하는 경향이 있어 그렇게 신경 써서 보지는 않아도 될 것 같습니다. 더구나 저 부분들은 모두 영어로 평가한 것이기 때문에 한글을 사용하는 한국인들이라면 더 그렇죠. 실제로 써보면서 대답하는 퀄리티를 보는게 더 정확할 겁니다. 일단 경험적으로는 무료로 제공되는 GPT 모델 정도만 되도 일상에서 사용(스케줄 관리, 단순한 정보 찾기, 일상 대화 등)에서는 무리가 없어 보입니다.

 

평가를 해보자면 성능적으로는 지난 번에 비해 크게 달라지지 않았다는 것을 알 수 있습니다. 사용 방식의 변화가 크게 달라졌고 이에 대한 평가가 이뤄져야 하죠. 사실 기존 모델들도 쓸만한 수준이였기에 이번에는 성능의 향상에 대한 발표가 아니라도 눈 감아줄 수 있다고 생각합니다. 사용자 입장에서 중요한 것은 얼마나 편하게 사용할 수 있냐와 비용이니까요. 비용도 절감했고 사용감 개선(음성+비디오)도 되었기 때문에 오픈AI의 행보가 정말 좋다고 생각합니다.


오픈AI 측의 말을 보면 현재 무료 사용자도 GPT-4o를 사용할 수 있도록 하고, 유료 사용자에게는 최대 5배 더 높은 메시지 제한을 제공한다고 합니다. 

GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT. We are making GPT-4o available in the free tier, and to Plus users with up to 5x higher message limits. We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.

그 뜻은 무료 사용자는 하루에 사용할 수 있는 답변 수 제한이 있을 것이고, 유료 사용자도 답변 수 제한이 있을 것이라는 겁니다. 현재는 사실상 테스트 기간이라고 생각되기 때문에 추후 더 업그레이드 하고 사용자들에게 없어서는 안 되는 기능이 된다면 가격을 높여서 이익을 추구하는 방향으로 갈 것 같습니다. 쿠팡을 생각하면 좋을 것 같아요. 처음에는 로켓배송 멤버십 가격이 쌌지만 최근 올리고 있는 것처럼요.

 

미래의 모습을 그려낸 영화가 현실화 되고 있어 기술의 발전이 정말 빠르다고 생각되기도 하고 정말 재미있네요. 
영화 HER에서 AI와 연애를 하면서 결국 이별을 하는 이야기가 나오는데, 그 중 AI가 말한 문구가 생각납니다. 

인간의 사고와 AI의 사고 수준(속도 등)이 달라 당신을 이해하기 어렵다. 사랑은 어떤 한 사람이라는 책을 읽는 과정이고 난 그 책을 사랑하지만 그 사람에 맞춰 천천히 읽다보니 단어들이 서로 분절 되어 엄청난 공간이 생겨버리고, 난 그것을 이해할 수 없게 된다.

HER에 보면 처음에는 사람들이 자신이 AI와 연애를 하고 있는 것을 숨기다가 영화 후반부에 가면 많은 사람들이 숨기지 않고 드러내는 장면들이 나옵니다. 나중에 시간이 지나고 나면 이런 장면들이 실제로도 많이 나타날 것 같아요.


내일은 구글의 IO가 있어서 구글에서 제미나이로 어떤 것을 보여줄지도 기대 됩니다. 구글도 비슷한 기능이 구현되지 않을까 생각되긴해서 기대가 되는데 내일 구글의 IO가 나오면 이것도 한 번 리뷰를 해보도록 하겠습니다.

반응형
반응형

open ai
open ai

샘 알트만이 7조 달러라는 엄청난 규모의 자금 조달을 추진한다는 소식이 알려지면서 큰 화제가 되고 있습니다. 애플과 마이크로소프트 시총을 합쳐도 6조 달러정도라고 하니 얼마나 큰 금액인지 감이 오시나요? 왜 이렇게 샘 올트먼이 큰 금액의 투자를 유치하고자 하는지 알아보도록 하겠습니다.


1. 단기적 목표 - AI 학습을 위한 반도체 확보

OpenAI의 생성형 AI Chat GPT를 학습시키기 위해서는 반도체가 무수히 많이 필요합니다. 구글, 아마존, 메타 등 테크 기업들은 과거부터 자체 AI 개발, 자체 반도체 개발(구글의 TPU 등)에 나서고 있죠. 혹시 지금의 반도체 강자라고 하면 어떤 기업이 떠오르시나요? 바로 엔비디아죠. 하지만 엔비디아의 반도체는 게임 등 그래픽 처리 목적으로 만들어졌기 때문에 AI 학습에는 적합하지 않습니다. 결국 AI 학습에 최적화된 반도체가 대량으로 필요하기 때문에 샘 올트먼은 투자를 유치하기에 이르렀습니다.

2. 장기적 목표 - AGI 구축

openai의 사명
OpenAI의 AGI 구축에 대한 목표

OpenAI의 사명이기도 한 AGI. AGI란 Artificial General Intelligence로 인간과 같은 수준 또는 그 이상의 지능을 가진 인공 지능을 의미합니다. AGI의 특징은 크게 세 가지로 정의할 수 있습니다.

  • 일반적인 지능: 특정 분야에 국한되지 않고 다양한 분야에서 인간과 같은 수준의 지능 발휘
  • 스스로 학습하는 능력: 스스로 정보를 받아들이고, 경험, 새로운 지식을 창출
  • 의식: 스스로 정보를 받아들이고, 경험할 수 있다면 의식을 가지는 것도 가능하지 않겠냐는 것. 여기에 대해서는 논쟁이 있음

핵심은 두 번째 특징인 스스로 학습하는 능력이라고 생각합니다. AGI가 인간에 해를 끼칠 것이라는 두려움이 나오는 이유도 스스로 학습하는 능력때문이죠.

그래서 OpenAI의 AGI 구축 목표는 인류에게 긍정적인 영향(기후 변화, 빈곤, 질병 등 문제 해결에 도움을 주는 것 등)을 미치는 AGI의 구축이면서도, 안전한 AGI의 구축이 목표입니다. AGI에 대한 샘 올트먼이 직접 작성한 문서에 보면 AI의 Safety에 대해 작성된 것을 확인할 수 있습니다.

Importantly, we think we often have to make progress on AI safety and capabilities together. It’s a false dichotomy to talk about them separately; they are correlated in many ways. Our best safety work has come from working with our most capable models. That said, it’s important that the ratio of safety progress to capability progress increases.

그리고 개인적으로 눈에 띄는 부분은 AGI의 이익과 접근성이 공정하게 분배될 수 있도록 정책 연구를 한다는 점이었습니다. 

We want the benefits of, access to, and governance of AGI to be widely and fairly shared.

자본주의에 완전히 반대되는 부의 분배 방식인데 이게 과연 성공 가능할까요? 저는 부정적으로 생각합니다. 평범한 사람인 저로서는 도대체 어떤 시스템으로 저게 가능할지 상상이 안 가네요. 그리고 자본주의는 최소한 지금까지 인류가 개발한 가장 완벽한 자본 시스템이니까요. 그에 반대되는 개념이나 시스템이 있었지만 사장되어 왔죠. 물론 이 사실이 앞으로도 자본주의 보다 더 나은 시스템이 나타나지 않을 것이다란 것을 말하는 것은 아니지만요.

 

얼마 전에 샘 알트만을 오픈AI에서 퇴출시키는 쿠데타가 있었습니다. 제 개인적인 생각으로도 최근 갑자기 오픈AI(샘 알트만)가 "돈에 미쳤나?"싶을 정도로 공격적으로 마케팅, 투자 유치 행보를 보이고 있는데요. 아마 내부 이사회에서 이런 우려가 있어서 샘 알트만을 퇴출시키려 했던 것으로 보이네요.


요약: 샘 올트먼의 최근 7조 달러 자금 조달은 단기적으로 AI용 반도체 수급, 장기적으로는 AGI 구축을 위해서다.

 

함께 보면 좋은 글)

샘 알트만 해임 사건과 큐스타

반응형
반응형

미국 대표 신문사 하면 어디가 떠오르나요? 저는 뉴욕타임즈가 떠오르는데요. 뉴욕타임즈는 미국의 대표적인 일간지로 1851년 9월에 창간되었습니다. NYT라고도 부르는 뉴욕타임즈는 온라인 저널리즘으로 성공적인 비즈니스 모델을 구축한 소수 언론 매체 중 하나인데요. 최근 뉴욕타임즈에서 마이크로소프트와 오픈AI에 생성형 AI 학습에 자신들의 기사를 무단으로 사용했다는 저작권 소송을 걸었습니다.


ChatGPT와 기타 인기 있는 AI 플랫폼을 개발한 회사들을 상대로 뉴욕타임즈가 미국에서 청므으로 소송을 제기한 것으로, 뉴욕 연방 지방 법원에 제기되었는데요. 소송 내용에는 뉴욕 타임즈의 수백만 건 기사가 자동 챗봇 훈련에 사용되었다고 주장하며, 이로 인한 수십억 달러에 이르는 법적 및 실질적 손해를 입었으며, 이에 대한 책임을 물을 것을 요구하고 있습니다. 일단 표면적으로는 "우리의 저작물에 저작권 침해를 했으니 손해 배상해라"로 보이는데, 뉴욕타임즈는 ChatGPT와 같은 생성형 AI를 앞으로의 뉴스 산업에서의 경쟁 상대로 생각하고 이미 견제를 들어가는 것으로 보입니다. AI 기자는 이미 과거부터 논란이 되어 왔고, AI 기자가 생성한 기사와 실제 기자가 생성한 기사를 비교하는 실험들도 종종 보도되었었죠. 아마 뉴욕타임즈는 미래에는 이런 생성형 AI가 자신들의 매출에 영향을 줄 것이라고 보고 있는 것 같습니다. 
여기서 의문인 건 왜 구글의 바드는 안 건들지라는 것인데요. 관련해서 찾아보면 이번 소송이 지난 4월부터 양측이 진행해 온 콘텐츠 사용료 지불 계약 협상이 결렬되면서 나왔다고 하는데, 아마 구글과는 이 협상을 아직 진행하지 않았거나(계약 기간이 남아서), 협상이 잘 되었거나 둘 중 하나인 것으로 보입니다. 즉 마이크로소프트와 오픈AI한테 협상 결렬된 것에 대한 불만 표출도 있는 것 같아요. 

소송 결과는 과연 어떻게 될까요? 2022년에 미 항소법원에서 "인터넷 공개 정보, 자동 스크래핑은 합법"이라는 판결이 났었는데요. 과거 링크드인이 하이큐 랩스에 대해 사용자 개인 정보를 스크래핑 하는 것을 막기 위해 제기한 법적 소송에 대한 판결입니다. 저작권이 있는 기사와 개인정보 조금 성격이 다르긴 하지만, 더 민감한 정보인 개인정보에 대해서 외부 공개되었다는 이유로 합법으로 판결된 것을 보면, 저작권이 있는 저작물도 동일한 판결이 내려질 가능성이 높지 않을까? 생각되긴 하네요.


이번 소송이 중요한 것은 생성형 AI의 대표 주자인 오픈AI의 ChatGPT와 그를 후원하고 있는 마이크로소프트에 대한 소송이란 점입니다. 아마 이런 대표주자들한테 들어간 소송이 뉴욕타임즈의 승리로 끝난다면 AI란 학습을 기반으로 돌아가는 시스템이기 때문에 생성형 AI 자체에도 큰 영향을 줄 수 있을 것으로 보입니다.

반응형
반응형

최근 오픈AI에서 일어난 샘 알트만 해임 사건과 큐스타에 대해 간단히 알아봅니다.

 

배경


  • 샘 알트만(Sam Altman) 최근 행보는 아래와 같음
    • AGI(Artificial General Intelligence, 범용 인공 지능)에 도달할 기술 개발했다는 공식 석상 발표(11월 16일) -> OpenAI 해임(11월 17일) -> OpenAI 복귀(11월 22일)

  • 알트만은 APEC CEO summit에서 "오픈 AI가 중요한 순간 중 하나를 경험했다"며 중요한 발견을 언급한 후 다음 날 해임 당함
  • 11월 16일에 발표한 이 발언은 AGI에 도달할 수 있는 기술을 개발 중이라는 것으로, 이름은 큐스타(Q-Star)로 알려짐
  • 오픈AI 소속 일리야 수츠케버(Ilya Sutskever) 주도로 이루어진 GPT-Zero 프로젝트에서 test-time computation이라는 기계 학습 핵심 개념을 이용해, 코드 생성팀과 수학 생성팀을 결합한 새 조직을 통해 큐스타를 개발

큐스타(Q-Star)


  • 현재의 대부분 LLM은 데이터와 통계 기반으로 학습한 뒤, 단어 예측을 통해 질문에 대한 답변을 해주는 원리로, 구글의 트랜스포머(Transformer) 모델을 기반으로 함

  • 이는 학습 데이터가 없는 질문에 대해서는 답변을 할 수 없다는 것이며, GPT를 사용할 때 "GPT는 ~ 까지의 데이터만 학습되어 있습니다." 라는 점을 강조하는 이유임
  • 또한 구글이 이 분야의 강자로 알려진 이유는 전 세계의 검색 시장을 장악하고 있으며, 사용자들이 올리는 모든 데이터는 학습 데이터로 활용할 수 있기 때문
    • 물론 이 때 모든 데이터들이 양질의 데이터는 아니기 때문에 양질의 데이터를 거르는 작업은 필수
  • 이러한 특징은 수학 문제에도 동일하게 적용되어, 기존 모델들은 학습한 범위 내의 수학 질문에 대해서만 답을 할 수 있음
  • 하지만 큐스타 학습하지 않은 새로운 수학 문제의 정답도 맞힐 수 있음
  • 이는 사람처럼 보유 하고 있는 지식을 응용해 학습하지 않은 새로운 문제도 해결할 수 있는 능력(추론 능력)을 가지고 있기 때문
  • 큐스타가 가지고 있는 지식으로 새로운 문제를 해결할 수 있다는 것은 AGI에 가까워졌다는 것을 의미하고, 샘 알트만은 이 사실을 최근에 발표한 것

일리야 수츠케버(Ilya Sutskever)


  • 수츠케버는 이스라엘계 캐나다인 컴퓨터 과학자로 OpenAI 공동 창립자 중 한 명임

 

  • 재밌는 것은 수츠케버는 샘 알트만 해임 사건의 주도자이며, 위에서 언급한 큐스타의 개발 핵심 멤버이자 이사
    • 수츠케버는 쿠데타 후 나중에 자신의 행동을 후회하고 알트만 복귀를 요구한 오픈 AI 직원 편에 섰음
  • 16일 공식 석상에서의 AGI에 도달할 기술에 대한 알트만의 발언 후 수츠케버 주도로 알트만 해임이 이뤄졌다는 것을 보아, 큐스타에 대해 내부적으로 갈등이 있었던 것으로 보임
    • OpenAI는 표면적으로 비영리 기업이며, 안전하고 유익한 AGI 구축을 목표로 함
 

OpenAI

Creating safe AGI that benefits all of humanity

openai.com

  • 수츠케버는 MIT와의 인터뷰에서 "모든 AI 기술이 어디로 향하고 있는지에 대해 이야기하는 것이 중요하다"라는 말을 함
  • OpenAI의 사명, 수츠케버의 인터뷰, 최근 사건들을 보았을 때, 큐스타의 안정성, 개발 방향성에 대한 내부 인원들의 정립 및 합의가 제대로 이뤄지지 않은 상태에서 샘 알트만이 공식 석상에서 공개를 해버렸고, 이러한 갈등으로 인해 최근 샘 알트만을 둘러싼 모든 사건들이 일어난 것으로 예상됨
  • 어쨌든 샘 알트만은 오픈AI로 복귀를 했고, 앞으로 우리가 주목해서 봐야할 것은 공개될 큐스타에 대한 것임
  • 기술로 인한 엄청난 사회 문화적 변화가 있을 때 우리는 "특이점이 온다" 라는 표현을 사용하는데, 최근의 기술 발전들을 보았을 때, 근 2~3년은 모르겠고 정말 2030년 정도가 되면, "특이점이 온다" 라는 표현이 현실이 될 수 있을 것으로 보임
반응형

+ Recent posts