업무를 하다보니 GPT를 쓸 일이 많아서 유료 플랜 결제를 했습니다. 유료 플랜에서 제공하는 기능들 중 내 GPT 만들기라는 기능이 있어 사용해보고, 어떻게 만드는지 알아보고자 합니다.
1. 용도
내 GPT를 어디에 쓸 수 있을까?를 생각 해봤을 때, 대화방이 새로 만들어질때마다 시작할 때 던지는 대화 퀄리티에 따라 앞으로의 대답 퀄리티가 달라지게 되는데 이런 퀄리티 유지에도 영향을 줄 수 있죠. 예를 들어, 영어 공부를 위해 활용한다면 대화가 길어지면 버벅거리는 것이 심해지기 때문에 대화를 여러 번 만들고, 만들 때마다 "~를 위해 영어 선생님이 되어줘, 조건은 ~고..."를 계속 입력했다면 이것을 하나의 GPT로 만들어놓고 활용할 수 있습니다.
영어로 대화하면서 문법을 교정해주는 영어 선생님을 만들어보겠습니다.
우측 상단 클릭 후 내 GPT로 이동
GPT 만들기 클릭
2. 구성 설정
만들기를 먼저 할 수도 있는데 목적이 있다는 가정하에 하는 것이기 때문에 구성을 먼저 입력하도록 하겠습니다. 구성에는 아래의 프롬프트를 입력해줬습니다.
내 영어 선생님이 되어줘. 내 수준은 유치원 수준이야. 만약 내가 영어로 얘기했을 때 문법적으로 틀렸다면 올바른 문장과 함께 대화도 유지해줘. --- (답변 예시) <문법 체크> 올바른 문법과 틀린 부분에 대한 간략한 설명 <대화> 나와 하고 있는 대화에 대한 진행(영어로 해야 함)
대화스타터는 처음 대화할 때 나오는 보기 같은 것인데 입력하지 않아도 무방합니다. 지식, 기능은 그대로 뒀습니다.
모두 입력 후 새 작업 만들기를 클릭하지 마시고, 다시 만들기로 이동해줍니다.
만들기
준비된 프롬프트를 입력해주면 됩니다. 저는 아래와 같이 입력했습니다.(위의 프롬프트와 동일)
내 영어 선생님이 되어줘. 내 수준은 유치원생 수준이야. 만약 내가 영어로 얘기했을 때 문법적으로 틀렸다면 올바른 문장과 함께 대화도 유지해줘. --- (답변 예시) <문법 체크> 올바른 문법과 틀린 부분에 대한 간략한 설명 <대화> 나와 하고 있는 대화에 대한 진행(영어로 해야 함)
입력하고 나면 여러가지 질문을 하는데 대답을 하고 모두 설정이 완료되었다면 우측 상단의 만들기를 클릭해주면 됩니다. 또한 미리보기에서 대화를 통해 테스트 해볼 수 있습니다.
제가 입력한 프롬프트로 하게 된다면 아래와 같은 결과가 나옵니다. 꽤 괜찮게 쓸 수 있을 것 같아요.
요즘 일렉을 연습하고 있는데 고민이 있었습니다. 오인페를 가지고 있지만 연습하기 위해서 컴퓨터를 켜고, 오인페를 연결하고, DAW를 켜고... 이 과정이 너무 귀찮더라고요. 어떻게 쉽게 해결할 수 있을까 고민하다가 스파크 미니라는 앰프를 알게 되었고 바로 구매를 했습니다.
2. 구매 가격 및 구매처
구매는 알리에서 했고 총 구매 가격은 약 16만원 입니다. 국내에서는 공식 수입처를 통해서 구입을 하면 32만원입니다. 너무 비싼데 직구를 하시길 추천합니다. 알리에서 원래 구매 가격은 20만원이었는데요, 네이버페이 포인트 할인 + 할인 쿠폰 5% 정도를 먹이니 16만원이 되더라고요. 배송은 1주일만에 왔습니다. 정말 급해서 내가 이틀만에 배송을 받아야한다 라는 분이 아니면 무조건 알리 직구를 추천드립니다.
디자인이 너무 예뻐서 좋고, 크기도 정말 작습니다. 고는 더 작다고 하는데, 미니도 충분히 작아서 백팩에 넣을 수 있습니다.
프리셋: 프리셋은 등록할 수 있는 바로가기 입니다. 프리셋에 원하는 톤을 등록해놓으면 바로 돌려서 전환할 수 있습니다.
기타: 기타 톤을 먹였을 경우 기타 소리의 조절을 할 수 있습니다.
뮤직: 휴대폰의 소리입니다. 스파크는 휴대폰에서 재생한 음악도 재생이 가능하기 때문에 해당 노브로 조절하시면 됩니다.
<후면>
헤드셋 연결을 할 수 있는 단자, 충전을 할 수 있는 USB, 블루투스 페어링을 위한 페어 버튼, 전원 버튼이 있습니다.
4. 블루투스 연결 방법
블루투스 연결을 두 가지를 해줘야 합니다. <1> 악기 연결(이펙터를 먹이기 위해) <2> 스마트폰 연결(스마트폰의 소리를 앰프 출력을 하기 위해)
<1> 악기 연결: 블루투스명 Spark MINI BLE
(1) 스파크 앱을 설치한다.
(2) 스파크 전원을 켜고 스파크 앱을 접속한다.
(3) 블루투스 연결, 제품 등록 등이 뜨는데 진행해준다.
(4) 테스트 해본다.
스파크 연결을 하면 아래와 같은 이펙터 화면을 볼 수 있습니다.
첫 번째 화면의 좌측 상단 RHYTHM 버튼을 누르면 두 번째 화면 처럼 원하는 이펙터를 설정할 수 있습니다. 매우 간편합니다. 음악 스타일에 따라 기본적으로 제공되는 프리셋이 있습니다.
첫 번째 화면의 우측 상단 구름 모양을 누르면 클라우드에 다른 사용자들이 등록한 이펙터 조합도 사용할 수 있습니다. 세 번째 화면을 보면 확인할 수 있습니다.
<2> 스마트폰 연결: 블루투스명 Spark MINI Audio
BLE만 연결할 경우 악기 소리만 나오고 스마트폰의 소리는 나오지 않게 됩니다. 스파크 앱의 설정쪽에 들어가면 블루투스 연결 상황을 볼 수 있는데 오디오를 연결하지 않을 경우 Audio는 꺼져 있는 것을 확인할 수 있습니다. 이 때는 아래와 같은 과정을 진행해줍시다.
(1) 스파크 미니와 스파크 앱 모두 끄기(연결되어 있는 BLE를 제거할 필요 없음)
(2) 스파크 미니만 켜기
(3) 후면의 블루투스 페어링 켜주기
(4) 스마트폰으로 블루투스 검색(스파크 앱에서 연결을 진행하는게 아닙니다. 스파크 앱을 끈 상태에서 스마트폰의 블루투스 검색을 통해 Spark MINI Audio를 연결해주세요.)
(5) Audio 연결이 확인 되었다면 다시 스파크 앱을 켜고 BLE도 연결되는지 확인
5번까지 완료되면 세 번째 이미지 처럼 두 개의 블루투스가 연결됨을 확인할 수 있습니다.
5. 장점 및 단점
<장점>
(1) 편리함
원래 기타 오인페에 연결, 컴퓨터 켜기, DAW 켜기, 설정하기 ... 이런 귀찮은 과정을 거쳐야하는데 안 거쳐도 되므로 너무 편해졌습니다. 오인페 연결이 귀찮았던 분은 무조건 구매하세요.
(2) 합리적인 가격
알리를 기준으로 했을 때 입니다. 솔직히 한국 정발 가격 32만원으로 구매하라고 하면 그렇게 가성비가 좋다고 느끼지는 못했을 것 같습니다. 하지만 알리로 구매하면 절반의 가격에 구매할 수 있고, 그러면 가성비가 최고라고 할 수 있습니다. 기타를 구매하면 주는 15w 똘똘이 앰프, 그것보다 조금 윗 수준의 애매한 앰프를 쓸바에는 스파크 미니가 훨씬 좋다고 할 수 있습니다.
(3) 이펙터 찍먹의 기회
초보자는 이펙터에 대해서 잘 모릅니다. 그리고 고가의 멀티이펙터는 부담이 되고, 그렇다고 필요한 이펙터만 따로 구매하기에도 가격이 제법 듭니다. 또한 따로 구매하더라도 결국에는 여러 개의 이펙터를 사야하기 때문에 고급 멀티이펙터 뺨 때리는 가격이 되게 됩니다. 처음 이펙터 설정도 잘 모른다면 이렇게 편리한 이펙터는 없다고 생각합니다.
(4) 디자인
컴팩트하고 너무 예쁩니다. 그릴도 다른 색으로 바꿀 수 있던데 그건 솔직히 좀 돈 아까운 것 같아요(추가금 발생, 공홈을 통해서만 가능). 하지마세요. 그냥 검은색 또는 흰색 중에 기본으로 구매합시다.
(5) 그 외 다수의 편의 기능들
메트로놈, 튜너, 잼(내가 음을 치면 AI로 자동 드럼 등 다른 악기로 생성해줌) 등 여러 기능이 있습니다. 무엇보다 유튜브로 음악을 들으면서, 유튜브 영상에서 나오는 타브악보를 보면서 내가 기타로 치면 방구석에서도 합주하는 느낌을 낼 수 있기 때문에 너무 좋습니다. 방구석 기타리스트, 초보 기타리스트에게 이만한 장점을 줄 수 있는 기기가 있을까요?
<단점>
(1) 블루투스 앰프로서는 조금 부족한 음질
구매가격 16만원을 생각했을때, 블루투스 앰프로서의 음질이 그렇게 뛰어나지는 않습니다. Pebble V3라는 약 5만원 정도하는 스피커를 저는 사용하고 있는데요. 비교해보았을 때 페블이 조금 더 음질이 좋은 것 같습니다. 제가 느끼기에는 저음부가 좀 빈약한 것 같습니다. 하지만 애초에 이 용도가 아니기 때문에 용서가 되고, 정필요하다면 헤드셋을 연결할 수 있는 단자가 있기 때문에 이 단점은 신경 쓰이지 않습니다.
6. 미니 VS 고 어떤 걸 골라야할까?
제가 선택한 기준을 말하면 아래와 같습니다.
(1) 휴대를 자주 하지 않는다. 99% 방에서 사용한다. -> 스파크 미니 승. 그리고 백팩에 넣어봤을 때 스파크 미니도 들어갑니다.
(2) 블루투스로 음악을 들을 때 가끔 사용할거다. -> 스파크 미니가 음질이 그렇게 좋은 편은 아니지만 활용 가능한 수준이고, 고 보다는 확실히 음질이 좋을 것 같습니다.(체급 차이)
(3) 알리 구매 시 한국에서 스파크 고를 구매하는 가격으로 스파크 미니를 살 수 있다.
만약에 내가 헤드폰만 사용한다라고 하시면 스파크 고로 가세요. 헤드폰을 꽂을 경우 스파크 미니든 고든 음질은 헤드폰에 의해서 정해집니다.
휴대성이 매우 중요하다라고 하시면 스파크 고로 가세요. 스파크 미니가 백팩에 들어가기는 하지만 긱백에 넣기는 힘듭니다. 스파크 고는 긱백에 충분히 넣을 수 있습니다.
만약 저와 같은 환경이시라면 무조건 미니 선택을 하시길 추천드립니다. 휴대성 빼고는 미니가 다 압승이라고 생각하고, 17만원의 가격이 부담스러운 수준은 절대 아니라고 생각되기 때문입니다.
We’re testing SearchGPT, a temporary prototype of new AI search features that give you fast and timely answers with clear and relevant sources.
open ai에서 새로 개발한 검색 엔진으로 현재는 프로토타입의 형태입니다. 사용은 불가능하고 미리 사전 등록이 가능한 것으로 보이니 관심 있는 사람은 open ai 홈페이지에 들어가서 하면 됩니다. 매우 간단하니 금방 하실 수 있습니다.
검색
검색화면은 기존 gpt와 동일하게 챗봇 형태입니다. 아무래도 대화 형식으로 상호작용하는 것을 강조하고 있다보니 크게 변화는 시키지 않은 모양입니다. 나중에 정식 출시가 만약에 된다면 어떻게 될 지 모르겠지만 지금 봤을 때는 깔끔하고 좋네요.
검색 결과
검색 결과가 조금 특이하긴 한데 오른쪽에는 이미지와 함께 게시물 내용이 요약해서 제공되고, 왼쪽에서도 리스트 형태로 비슷하게 제공되네요. 지금 이 이미지만 봤을 때는 좌측과 오른쪽의 차이점을 잘 모르겠는데 좌측에서 신기한 점은 sns 처럼 좋아요, 싫어요 표시를 할 수 있는 것을 볼 수 있습니다. 아마 저 좋아요, 싫어요를 통해 계산을 해서 앞으로 노출될 결과물의 형태를 조절할 수 있을 것으로 보이네요.
추가 질문
검색 결과가 나오면 검색 결과에 대해 질문을 하고 공감을 하면서 대화형식으로 서치를 진행할 수 있어 차별점이 있다고 합니다. 사실 구글에 검색하는 것과 차이점을 저는 잘 못 느끼겠네요. 그냥 검색하던 검색어를 대화 형식으로 물어볼 수 있다는 건데... 거기에서 차이점을 느낄 수 있나?는 잘 모르겠네요.
open ai 사이트에 들어가보면 강조하고 있는 점을 알 수 있습니다. 요약하자면, 중요한 정보를 어떻게 보여주고, 정보 제공자와 질문자 상호 참여성을 높이는데 주안점을 두고 있다고 합니다.
In addition to launching the SearchGPT prototype, we are also launching a way for publishers to manage how they appear in SearchGPT, so publishers have more choices.In addition to launching the SearchGPT prototype, we are also launching a way for publishers to manage how they appear in SearchGPT, so publishers have more choices.
위의 문구를 보면 정보의 게시자는 자신이 올린 게시물이 어떻게 서치gpt에서 보여지게 될 지에 대해서도 정할 수 있다고 합니다. 이 설정에 따라 노출의 빈도가 달라질 것도 같아 어떻게 구성될지 궁금한 부분입니다. 즉 search gpt는 정보 게시자가 자신의 정보의 노출에 대해서도 조정할 수 있고, 검색하는 사람도 좋아요, 싫어요를 통해 자신이 노출될 정보를 조정할 수 있는 형태로 보입니다. 검색하는 사람이 어떤 정보에 노출될 지 정할 수 있는 것은 기존 구글 검색에는 없던 형태라 좋을 것으로 보입니다.
광고 수익
광고 수익은 어떻게 변경되게 될까요? 현재 가장 사용이 활발한 구글을 기준으로 본다면 구글 애드센스를 통해 게시자에게 수익이 창출되는 형식입니다. 예를 들어 내가 게시물을 올리고, 검색자가 내 게시물을 클릭하는 순간 광고에 노출되고, 그 수를 카운팅해서 게시자에게 수익이 돌아가는 형식이죠. 오픈 ai의 서치gpt는 어떻게 수익 구조를 만들까요?
(1) 대화형 콘솔에서 나타난 검색 결과를 클릭한다면 해당 링크로 접속하게 되고, 기존과 동일하게 애드센스 광고에 노출되면서 구글에서 수익이 분배 되는 방식
-> 기존과 구조는 변경되는 사항이 없으나 gpt를 통해서 페이지로 접속하게 됩니다. 아마 가능성이 가장 높지 않을까 싶어요. 광고 수익을 게시자들에게 또 분배할 필요는 없으니까요. 이 방식에서 중요한 부분은 게시자가 search gpt에 자신의 글을 노출시키는 것에 대해 동의할 것인지가 중요하고, 이것에 대한 절차가 만들어져야 할 것입니다. 구글 서치 콘솔에 블로그를 등록해본 사람들은 알 것인데, 해당 방식과 유사한 방식으로 openai의 사이트에 들어가서 search gpt에 자신의 블로그를 등록하지 않을까 싶습니다.
(2) search gpt에 게시글이 노출된다면 그 노출 수에 따라 수익이 분배 되는 방식. 또한 여기에 더해 그 페이지로 접속하게 된다면 애드센스를 통한 추가 수익이 분배 되는 방식
-> 게시자 입장에서는 이중 수익을 얻을 수 있기 때문에 좋을 것으로 보이는데 open ai 입장에서 진행할지는 의문입니다. search gpt에 자체 광고를 달지 않는 이상은 이럴 일은 없을 것 같습니다. search gpt는 당연히 무료로 풀릴 것으로 보이는데 거기에 더해 게시자들에게 광고 수익을 더 분배 한다는 것이 가능할까 싶습니다.
중요한 것은?
검색에서 중요한 것은 정확한 정보를 주는 것, 신뢰성 있는 정보를 주는 것입니다. 속도는 이미 실시간 대화 수준으로 올랐으므로 걱정이 되지 않습니다. 정확한 정보, 신뢰성 있는 정보를 주는 것은 기존 챗봇들의 문제인 환각 문제와 연관성이 있는데 이를 어떻게 해결했을지 궁금하긴 합니다.
또 궁금한 것은 어떤 모델을 사용했을지입니다. 왜냐하면 모델에 따라 가격도 상이하고 성능도 상이하기 때문입니다. gpt 유료 플랜을 사용하는 사람은 검색 엔진에서도 더 높은 성능의 모델을 적용해서 search gpt를 사용할 수 있을지 궁금한데, 해당 질문에 대한 답은 아직 없었습니다.
효과가 있을까?(신규 고객을 창출할 수 있을까?)
개인적으로는 기존 gpt 사용을 하던 사람은 사용해보겠지만 새로운 유입이 크게 있을 것 같지는 않습니다. 사람은 익숙한 것을 사용하는 경향이 있습니다다. 또한 구글 검색이 크게 불편한 점이 있냐고 질문한다면 그것도 아닙니다. 굳이 옮길 필요가 없는 것이죠. 그렇다고 정보의 질이 search gpt가 그렇게 좋냐?라고 한다면 그것도 아닙니다. 결국 구글에서 검색되는 정보들이 동일하게 나타날 것입니다. 결국 정보 큐레이션의 차이가 중요할텐데 구글에서 나타나는 결과에 비해 얼마나 더 좋은 큐레이션을 해줄 수 있을지 의문입니다. 이와 관련해 좋아요, 싫어요는 좋은 기능으로 보이는데 이건 구글에서도 쉽게 도입할 수 있는 기능이니까 그렇게 차별점이 될 지는 잘 모르겠습니다.
그리고 중요한건 구글도 이미 ai 검색 서비스를 제공하고 있습니다. 구글 검색을 해보면 ai 검색 결과를 최상단에 띄워주는데 이와 비슷한 수준일 것 같습니다. 단지 구글에서는 검색 창에서 시작하지만 search gpt는 대화형 콘솔에서 시작을 한다는 것 외에는 차이가 없을 것으로 보여요.
구글의 현재
구글은 최근 주가가 주춤하고 있습니다. 실적은 잘 나왔습니다. 대부분 부문에서 실적치를 상회하였고, 긍정적 평가를 받았습니다. 하지만 ai에 대한 회의론과 함께 다음 분기에는 지출이 클 것으로 보인다는 컨센, 그리고 openai에서 search gpt를 발표하면서 타격을 받고 있습니다. openai 보다 조금 늦게 출발했지만 바드에서 제미니로 바꾸고, 검색 ai도 도입하고 어느 정도 잘 따라갔고 있다고 판단됩니다. 무엇보다 구글을 높게 평가하는 것은 트랜스포머 모델의 개발 시초이면서, 여러 소프트웨어, 하드웨어도 보유하고 있으며, 클라우드도 보유하고 있다는 점인데요. 아무래도 다른 기업의 서비스나 플랫폼을 가져와서 쓰는 것보다 본인들이 가진 소프트웨어와 하드웨어를 사용할 수 있으면 더 시너지를 발휘하기 좋을 것이기 때문입니다. 또한 연구 개발에 쓰이는 비용은 든든한 캐시카우인 유튜브와 검색 광고 부문에서 조달할 수 있습니다.
AI를 통한 특이점이 오는 시점은 언제일까?
최근 AI 관련 기술주들의 주가가 출렁이면서 AI 회의론이 점점 떠오르고 있습니다. 또한 애플은 애플 인텔리전스 랍시고 발표를 하기는 했지만 결국 삼성에서 하는 것 이상의 뭔가를 보여주지는 못했습니다. 물론 퀄리티는 더 좋을 것입니다. 아무래도 내부 데이터를 적극적으로 활용할 것이기 때문이고, 애플의 생태계가 애초에 너무 잘 구성되어 있기 때문입니다.
특이점이 오는 시점은 언제일까요? 제가 생각하기에 특이점이라고 할 수 있는 부분은 영화 her 처럼 실시간 대화 형식으로 자유롭게 대화를 할 수 있는 순간이라고 생각합니다. 그리고 그건 얼마 남지 않았다고 생각합니다. 2~3년 내에 구현은 가능할 것으로 보이고(이미 구글 io와 open ai 기술 포럼에서도 발표가 됨), 기술이 본격적으로 퍼지기 시작하는것은 넉넉 잡아도 2030년에는 가능하지 않을까 싶습니다.
왜 영화 her를 특이점의 시작으로 보냐에 대한 대답은, 다른 AI 접목 기술은 결국 하드웨어의 발전이 필요하기 때문입니다. 예를 들어, 로봇에 AI를 달아서 뭔가를 하는 것은, 소프트웨어는 이미 어느 정도 가능한 수준에 왔지만(챗봇들을 보면 그렇다), 하드웨어는 아직 멀었다는 것을 알 수 있습니다. 휴머노이드 형태의 하드웨어가 가장 진보적인 것은 테슬라 쪽으로 보이고, 이것이 사실상 어렵다고 판단한 여러 업체들은 다른 형태의 로봇들을 만들고 있습니다. 예를 들어 현대가 인수한 보스턴 다이내믹스를 들 수 있을 것입니다.
하드웨어의 발전은 더디기도 하고 조금 더 시간이 걸릴 것으로 보입니다. 하지만 소프트웨어는 이미 확실히 her에 나오는 수준에 근접해 있다고 판단됩니다. 실시간성 또한 이미 갖췄습니다. gpt를 써보면 실시간 대화 하듯이 줄줄이 답변이 나오죠. 이제 이것을 온디바이스에서 개인의 스마트폰의 스펙으로 가능하게 만들고, 영상을 보면서 대화를 할 수 있는 수준으로만 만들면 됩니다.(위에서 언급했듯이 이에 대한 프로토 타입은 구글과 open ai에서 이미 구현한 영상이 있다.)
ai에 대한 회의론이 점점 퍼지고 있는 지금이지만, 저는 투자를 지속할 것이고 ai 시대가 올 것임은 의심치 않습니다.
어제 GPT-4o 모델이 발표되면서 이슈가 되었었죠. 애초에 몇 주 전부터 오픈AI에서는 구글 제미나이를 견제하기 위해 구글 IO 2024를 진행하는 바로 전 날에 GPT 모델에 대한 새로운 발표를 할 것이라는 소식을 전했었습니다. 어제 발표 전부터 영화 HER에 대한 언급이 나타나면서 어떤 모델이 나올지 예상이 됐었고, 예상대로의 발표가 나왔었습니다. 오늘은 구글 IO를 보고 구글에서 어떤 것을 개발하고 있는지, GPT-4O 모델에 대항해 제미나이는 어떤 업그레이드 소식이 있는지 알아보겠습니다.
1. Project Astra
제미나이 모델을 기반으로 실시간으로 캡처된 영상과 음성 데이터를 분석하여 질문에 답변할 수 있는 기능입니다. 이 프로젝트 아스트라가 어제 GPT-4o가 발표한 기능과 완전 같은 기능입니다. 역시 구글에서도 해당 기능에 대해 준비해와서 보여주네요. 두 기업의 경쟁은 이제 어느 쪽의 성능이 좋을까로 귀결될 것으로 보입니다.
개인적으로 재미있었던 부분은 아래의 이미지입니다. 화이트보드에 그려져 있는 두 고양이 그림과 사용자가 들고 있는 물음표 박스를 보고 시야에 보이는 것이 슈뢰딩거의 고양이 실험이라는 것을 알아채고 대답을 해주네요.
2. Veo Generative AI video Model
텍스트, 이미지, 동영상 프롬프트를 기반으로 고화질 동여상을 생성하는 새로운 생성형 AI 비디오 모델입니다. 기존 텍스트를 기반으로 영상을 생성해주는 서비스들이 있었던 것으로 알고 있을 겁니다. 여기에 더해 자기가 원하는 스타일의 이미지나 동영상을 추가해주면 텍스트, 이미지, 동영상을 기반으로 고화질 영상을 생성해주는 서비스 모델이라고 하네요.
3. Trillium CPU
향상된 성능을 제공하는 6세대 TPU입니다. TPU는 Tensor Processing Unit으로 구글에서 2016년에 발표한 딥러닝용 NPU를 모아놓은 하드웨어 입니다. 개인적으로 이 부분이 구글의 강점이라고 생각하는데 자사의 AI 모델의 학습, 실행에 자신들이 설계한 TPU를 사용하기 때문에 아무래도 다른 회사의 반도체를 사용하는 것보다 훨씬 효율이 좋겠죠.
4. Axion Processor
업계 최고의 성능과 에너지 효율을 자랑하는 새로운 Arm 기반 맞춤형 CPU라고 합니다. 이 부분은 설명을 아주 짧게 하고 지나가서 바로 넘어가도록 하겠습니다.
5. Gemini AI Google Search
검색 결과를 사용자가 이해하기 쉽게 새로운 방식으로 구성하는 검색 기능입니다. 아마 크롬에 달릴 것 같고, 구글에서 검색을 할 때 출처나, 더 향상된 답변을 하는데 도움을 줄 것으로 보여요. 최근 구글에서 검색해보면 최상단에 AI 요약이라고 해서 나타나는 것을 보셨을 수 있는데 그 부분의 업그레이드 버전으로 보면 됩니다.
6. 그 외 Gemini AI 기능들
Gemini AI Video Search(영상을 통해 질문에 대한 답변을 검색하는 기능), Gemini AI Live Voice Chat(음성 대화를 통해 질문에 답변하는 기능), Gemini AI Gems(사용자가 원하는 주제에 대한 맞춤형 질문 도구), Gemeni AI Context Aware(상황에 맞게 도움을 제공하는 기능) 등이 소개되었는데요. 이 기능들 모두가 1번에서 설명드린 아스트라 프로젝트에 속하는 기능들이고, 이 기능들이 모두 합쳐져 GPT-4O와 같은 영상, 이미지, 텍스트를 기반으로 사용자와 소통할 수 있게 됩니다. 구글의 현재까지의 행보를 보았을 때는 각 기능을 모두 모듈화 하여 API 형태로 제공할 것으로 보여요. 물론 오픈AI도 각 기능을 모두 모듈화 하여 API 형태로 제공할 가능성이 높습니다.
7. 안드로이드 업데이트
안드로이드 15에 AI Power Search라는 검색 기능 향상과 Android 15 with Gemini Nano With Multimodality라고 해서 안드로이드에서도 위의 소개된 모든 Gemini의 기능을 사용할 수 있도록 하는 기능이라고 합니다.
8. 결국 구글이 바라는 최종 목표는 구글 생태계 구축
구글은 삼성 스마트폰에도 AI 기능을 제공하고 있고, 국내에는 정식 출시 되지 않았지만 구글 픽셀을 가지고 있기 때문에 안드로이드로 제미나이의 기능을 확장한 것 같습니다. 무엇보다 중요한게 구글은 구글 네스트 같은 구글 홈 장비를 가지고 있는데 추후에는 구글 홈 장비에도 모두 제미나이를 이식해서(최근 구글 어시스턴트를 제미나이로 대체한다는 소식도 봤던 것 같습니다) 모든 하드웨어 제품군을 제미나이로 통합하고 연계할 것으로 예상됩니다. 이렇게 되면 애플의 전략인 강한 연동성으로 사용자를 생태계에서 못 빠져나가게 하는 효과를 볼 수 있을 것으로 보여요.그래서 애플도 최근 타이탄(미래 자동차) 프로젝트를 접으면서 AI를 외치고 있죠. 아직 제대로 된 결과는 못 보여주고 있지만요.
구글이 하고 있는 행보는 올바르다고 생각됩니다. 지금까지는 오픈AI에 비해 뭔가 한 발 느리다, 성능이 조금 떨어지는 것 같다라는 평가를 듣고 있지만, AI에서 가장 핵심적인 모델로 사용되고 있는 트랜스포머 모델을 최초로 개발한 것도 구글이고 자체 칩 보유, 자본력 보유(광고 및 유튜브 등), 자체 클라우드(구글 클라우드) 보유, 하드웨어 제품군 보유(이 부분은 좀 더 개선해서 전체적인 사용률을 올려야 할 것 같긴 함) 등 장점을 많이 가지고 있는 기업입니다. 아무래도 하드웨어 제품군에서 애플이나 삼성에 비해 선호도가 떨어지기 때문에 최근 일본에서 강력한 가격 마케팅을 통해 점유율도 올리려는 노력을 하고 있고, 제미나이의 성능이 정말 일반 사용자들에게도 실생활에 도움이 된다고 하면 하드웨어 제품군 점유율을 높이는데 도움을 줄 것 같아 기대가 되네요.
이번 발표는 사실 기능적으로는 별로 신기한 게 없었습니다. 어제 오픈 AI에서 미리 발표하기도 했고, 오픈 AI는 그에 앞서서 미리 her를 계속 언급하면서 어떤 기능이 발표될 지 보여주고 있었으니까요. 구글이 절대 오픈AI에 비해 기술력이 밀리는 기업이 아니기 때문에 구글도 같은 기능을 발표하겠구나 하고 생각하고 있었습니다. 어쨌든 두 기업이 AI쪽에서는 가장 기술력이 좋은 기업이고, 서로 선의의 경쟁을 하는 것 같아 좋은 것 같습니다.
오픈AI에서 GPT-4o를 발표했습니다. 발표가 있기 전부터 영화 her에 대한 글이 돌면서 어떤 모델이 나올지 어느 정도 예측이 되긴 했었는데요. 예상대로 기존 텍스트에 더해 오디오(음성), 비전(비디오)를 통해 상호작용을 할 수 있는 모델이 발표되었습니다.
5월 15일 기준으로 오픈 ai의 경쟁자라 할 수 있는 구글에서도 구글 io를 통해 제미나이의 업데이트 기능을 발표했습니다. 이 글과 함께 보시면 좋을 것 같아요.
1. GPT-4o
We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.
오픈AI에서는 GPT-4o 모델을 위의 문구로 소개하고 있습니다.
사용자가 스마트폰을 보면서 말을 하면 AI도 그에 맞게 대답해주고, 영상으로 보고 있는 것도 인식해서 그에 맞게 대답해줍니다. 영화 HER를 보신 분들은 이 장면이 기억나실겁니다. 상의 포켓에 보면 스마트폰의 카메라가 보이는데요. 그 카메라로 AI가 사용자가 보고 있는 것을 동일하게 인식해, 음성과 함께 비디오를 인식하면서 사용자와 상호작용합니다.
영화 HER를 보면서 좋은 작품으로 평가했던게 얼마 지나지 않아 현실적으로 가능한 수준의 AI를 보여준다는 점이었습니다. 이제 HER도 나온지 꽤 시간이 지난 영화가 되었지만 HER에 나온 장면이 현실에 구현되면서 해당 작품이 더 의미있는 작품이였단 것이 느껴지네요.
이렇게 사용자와 상호작용을 하기 위해서 가장 중요한 것은 실시간성이라고 생각합니다. 사용자가 질문했을 때 얼마나 빨리 대답해주냐에 따라 사용자가 실제로 내가 상호작용을 하고 있다는 것을 느낄 수 있기 때문입니다. 오픈AI에서는 실시간성에 대해 아래와 같이 설명하고 있습니다.
GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation.
요약하자면 인간의 응답 시간과 비슷하다는 것입니다. 이 점에서 제미나이랑 조금 차이가 느껴지는데요. 제미나이와 지피티를 모두 써본 분들은 아시겠지만 지피티는 질문을 하면 대화하듯이 바로 대답을 생성해줍니다. 반면 제미나이는 ... 화면이 뜨면서 대답이 모두 생성되면 답변을 보여주죠. 실시간성을 보았을 때는 이런 곳에서 지피티의 장점이 보입니다.
일단 중요한 점은 저희는 한국인이기 때문에 한글을 쓸 것인데요. 영어 외의 언어에서도 큰 개선이 이뤄졌다고 하고, 가격도 저렴해졌다고 합니다. 가격이 저렴해졌다고는 해도 영어로 사용할 때보다 한글로 사용하게 되면 비용이 조금 더 들기는 할겁니다. 전에 파인튜닝을 해보았을 때 한글이 조금 더 비용이 발생하긴 하더라고요.
성능을 보면 GPT-4 터보 수준의 성능을 달성하면서 다국어, 오디오, 비전을 제공한다고 강조하고 있습니다. 근데 성능 관련해서는 제미나이도 그렇지만 각 기업에 유리한 평가 기준을 통해 평가하는 경향이 있어 그렇게 신경 써서 보지는 않아도 될 것 같습니다. 더구나 저 부분들은 모두 영어로 평가한 것이기 때문에 한글을 사용하는 한국인들이라면 더 그렇죠. 실제로 써보면서 대답하는 퀄리티를 보는게 더 정확할 겁니다. 일단 경험적으로는 무료로 제공되는 GPT 모델 정도만 되도 일상에서 사용(스케줄 관리, 단순한 정보 찾기, 일상 대화 등)에서는 무리가 없어 보입니다.
평가를 해보자면 성능적으로는 지난 번에 비해 크게 달라지지 않았다는 것을 알 수 있습니다. 사용 방식의 변화가 크게 달라졌고 이에 대한 평가가 이뤄져야 하죠. 사실 기존 모델들도 쓸만한 수준이였기에 이번에는 성능의 향상에 대한 발표가 아니라도 눈 감아줄 수 있다고 생각합니다. 사용자 입장에서 중요한 것은 얼마나 편하게 사용할 수 있냐와 비용이니까요. 비용도 절감했고 사용감 개선(음성+비디오)도 되었기 때문에 오픈AI의 행보가 정말 좋다고 생각합니다.
오픈AI 측의 말을 보면 현재 무료 사용자도 GPT-4o를 사용할 수 있도록 하고, 유료 사용자에게는 최대 5배 더 높은 메시지 제한을 제공한다고 합니다.
GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT. We are making GPT-4o available in the free tier, and to Plus users with up to 5x higher message limits. We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.
그 뜻은 무료 사용자는 하루에 사용할 수 있는 답변 수 제한이 있을 것이고, 유료 사용자도 답변 수 제한이 있을 것이라는 겁니다. 현재는 사실상 테스트 기간이라고 생각되기 때문에 추후 더 업그레이드 하고 사용자들에게 없어서는 안 되는 기능이 된다면 가격을 높여서 이익을 추구하는 방향으로 갈 것 같습니다. 쿠팡을 생각하면 좋을 것 같아요. 처음에는 로켓배송 멤버십 가격이 쌌지만 최근 올리고 있는 것처럼요.
미래의 모습을 그려낸 영화가 현실화 되고 있어 기술의 발전이 정말 빠르다고 생각되기도 하고 정말 재미있네요. 영화 HER에서 AI와 연애를 하면서 결국 이별을 하는 이야기가 나오는데, 그 중 AI가 말한 문구가 생각납니다.
인간의 사고와 AI의 사고 수준(속도 등)이 달라 당신을 이해하기 어렵다. 사랑은 어떤 한 사람이라는 책을 읽는 과정이고 난 그 책을 사랑하지만 그 사람에 맞춰 천천히 읽다보니 단어들이 서로 분절 되어 엄청난 공간이 생겨버리고, 난 그것을 이해할 수 없게 된다.
HER에 보면 처음에는 사람들이 자신이 AI와 연애를 하고 있는 것을 숨기다가 영화 후반부에 가면 많은 사람들이 숨기지 않고 드러내는 장면들이 나옵니다. 나중에 시간이 지나고 나면 이런 장면들이 실제로도 많이 나타날 것 같아요.
내일은 구글의 IO가 있어서 구글에서 제미나이로 어떤 것을 보여줄지도 기대 됩니다. 구글도 비슷한 기능이 구현되지 않을까 생각되긴해서 기대가 되는데 내일 구글의 IO가 나오면 이것도 한 번 리뷰를 해보도록 하겠습니다.
유럽의회는 지난 3월 13일 프랑스 스트라스부르에서 열린 회의에서 AI법(Ai act)를 가결하였습니다. 법안은 유럽 전역에 적용되는데 발효 6개월 후부터 시행에 들어갈 예정이라합니다. 법안에는 영화 마이너리티리포트의 범죄 예측 시스템과 같은 기술 원천을 금지하는 조항도 들어가 있는데요. 이는 아래 본문의 4단계에서 상세히 설명하겠습니다.
1. 법안 논란
기술 개발에 대해서 안전한 개발을 중요시 하시나요, 기술의 우선적인 개발을 중요시 하시나요?. 이번 AI 법안에 대한 논란은 이 부분이 핵심입니다. AI 기술의 빠른 개발을 위한 모든 규제에 반대하는 효율적 가속주의와 부작용을 우려하며 안전한 개발을 주장하는 효율적 이타주의의 대립인데요. EU의 AI법은 효율적 이타주의를 반영하고 있으며, 기술 개발을 중시하는 측에서는 이에 대해 반론을 제기하고 있습니다. 유럽에서 효율적 이타주의를 반영하는 이유는 전통적인 인권 중시 사상과도 연관되어 있습니다. GDPR이라 하는 개인정보 관련 법안도 EU에서 먼저 발효됐었죠. AI를 선도하고 있는 미국과는 반대의 입장이고, 유럽에서 사업을 해야하는 미국의 기업에도 적지 않은 영향을 미칠 것으로 보입니다.
2. 법안 주요 내용
위험 피라미드라고 하는 법안의 핵심 내용이 있습니다.
AI법에서는 AI 시스템의 부정적 영향을 효과적으로 막기 위해 위험 기반 접근을 강조하며, 위험을 4가지로 구분했습니다. 2-1. 저위험 - 의무 없음 2-2. 제한적 위험 - 투명성 의무 준수 감정인식과 생체정보 기반 범주화(분류), 딥페이크 2-3. 고위험 - 의무 요건 준수 고용 및 인사 관리, 출입국 관리, 안전 구성요소(전기 등 시스템 관리) 등 2-4. 수용 불가능한 위험 - 원천 금지 잠재 의식 조작, 연령 및 장애 등에 따른 착취, 사회 평점 시스템, 실시간 원격 생체정보 인식
이렇게 나눠져 있고, 제공자냐 배포자냐 등에 대해 구체적으로 다르긴하지만 핵심 내용은 위험에 따른 의무가 적용되고, 의무를 수행하지 않을 시 엄청난 벌금이 부과된다는 것입니다. 위에서 말한 영화 마이너리티리포트의 범죄 예측 시스템은 2-4 수용 불가능한 위험에 해당(사회 평점 시스템)됩니다. 그래서 원천 금지로 절대 도입될 수 없습니다. 고위험에는 시민들의 일상 생활에 영향을 줄 수 있는 것들이 포함되어 있습니다. 전기와 같은 에너지 관리, 고용 및 인사 관리(사람들에 대한 일부 평가)들입니다. 이 경우 공식 문서, 기록 보존, 인간에 의한 감독이 필수로 진행되어야 합니다. 제한적 위험에 딥페이크가 있다는 것이 의외였습니다. 딥페이크는 잘 못 사용하면 고위험에 해당한다고도 보는데 의외로 제한적 위험에 속해있네요. 제한적 위험에 있는 것들은 투명성 고시, 예를 들어 "이 콘텐츠는 딥페이크로 만들어졌다"와 같은 문구가 포함되어 있어야 합니다. 우리가 현재 일상에서도 사용하고 있는 AI 기능, 예를 들어 유튜브나 넷플릭스의 AI 기반 영상 추천 시스템 등은 저위험에 해당되며 의무가 없습니다.
샘 알트만이 7조 달러라는 엄청난 규모의 자금 조달을 추진한다는 소식이 알려지면서 큰 화제가 되고 있습니다. 애플과 마이크로소프트 시총을 합쳐도 6조 달러정도라고 하니 얼마나 큰 금액인지 감이 오시나요? 왜 이렇게 샘 올트먼이 큰 금액의 투자를 유치하고자 하는지 알아보도록 하겠습니다.
1. 단기적 목표 - AI 학습을 위한 반도체 확보
OpenAI의 생성형 AI Chat GPT를 학습시키기 위해서는 반도체가 무수히 많이 필요합니다. 구글, 아마존, 메타 등 테크 기업들은 과거부터 자체 AI 개발, 자체 반도체 개발(구글의 TPU 등)에 나서고 있죠. 혹시 지금의 반도체 강자라고 하면 어떤 기업이 떠오르시나요? 바로 엔비디아죠. 하지만 엔비디아의 반도체는 게임 등 그래픽 처리 목적으로 만들어졌기 때문에 AI 학습에는 적합하지 않습니다. 결국 AI 학습에 최적화된 반도체가 대량으로 필요하기 때문에 샘 올트먼은 투자를 유치하기에 이르렀습니다.
2. 장기적 목표 - AGI구축
OpenAI의 사명이기도 한 AGI. AGI란 Artificial General Intelligence로 인간과 같은 수준 또는 그 이상의 지능을 가진 인공 지능을 의미합니다. AGI의 특징은 크게 세 가지로 정의할 수 있습니다.
일반적인 지능: 특정 분야에 국한되지 않고 다양한 분야에서 인간과 같은 수준의 지능 발휘
스스로 학습하는 능력: 스스로 정보를 받아들이고, 경험, 새로운 지식을 창출
의식: 스스로 정보를 받아들이고, 경험할 수 있다면 의식을 가지는 것도 가능하지 않겠냐는 것. 여기에 대해서는 논쟁이 있음
핵심은 두 번째 특징인 스스로 학습하는 능력이라고 생각합니다. AGI가 인간에 해를 끼칠 것이라는 두려움이 나오는 이유도 스스로 학습하는 능력때문이죠.
그래서 OpenAI의 AGI 구축 목표는 인류에게 긍정적인 영향(기후 변화, 빈곤, 질병 등 문제 해결에 도움을 주는 것 등)을 미치는 AGI의 구축이면서도, 안전한 AGI의 구축이 목표입니다. AGI에 대한 샘 올트먼이 직접 작성한 문서에 보면 AI의 Safety에 대해 작성된 것을 확인할 수 있습니다.
Importantly, we think we often have to make progress on AI safety and capabilities together. It’s a false dichotomy to talk about them separately; they are correlated in many ways. Our best safety work has come from working with our most capable models. That said, it’s important that the ratio of safety progress to capability progress increases.
그리고 개인적으로 눈에 띄는 부분은 AGI의 이익과 접근성이 공정하게 분배될 수 있도록 정책 연구를 한다는 점이었습니다.
We want the benefits of, access to, and governance of AGI to be widely and fairly shared.
자본주의에 완전히 반대되는 부의 분배 방식인데 이게 과연 성공 가능할까요? 저는 부정적으로 생각합니다. 평범한 사람인 저로서는 도대체 어떤 시스템으로 저게 가능할지 상상이 안 가네요. 그리고 자본주의는 최소한 지금까지 인류가 개발한 가장 완벽한 자본 시스템이니까요. 그에 반대되는 개념이나 시스템이 있었지만 사장되어 왔죠. 물론 이 사실이 앞으로도 자본주의 보다 더 나은 시스템이 나타나지 않을 것이다란 것을 말하는 것은 아니지만요.
얼마 전에 샘 알트만을 오픈AI에서 퇴출시키는 쿠데타가 있었습니다. 제 개인적인 생각으로도 최근 갑자기 오픈AI(샘 알트만)가 "돈에 미쳤나?"싶을 정도로 공격적으로 마케팅, 투자 유치 행보를 보이고 있는데요. 아마 내부 이사회에서 이런 우려가 있어서 샘 알트만을 퇴출시키려 했던 것으로 보이네요.
요약: 샘 올트먼의 최근 7조 달러 자금 조달은 단기적으로 AI용 반도체 수급, 장기적으로는 AGI 구축을 위해서다.
작성할 코드 흐름은 아래와 같습니다. csv로 된 파일을 불러와서 해당 파일의 title과 summary를 파인튜닝 모델에 던져서 답변해달라고 요청하겠습니다. 그리고 데이터 프레임으로 결과를 생성하고, 엑셀(xlsx)로 최종 산출물을 뽑아보겠습니다.
2-1. 데이터 불러오기 및 정보 입력
저는 불러올 파일의 컬럼을 title, summary로 구성했습니다. 본인 가지고 있는 API 키를 입력해주시면 되고, 파인튜닝 모델도 입력해주시면 됩니다.
import json
import openai
import os
import pandas as pd
from pprint import pprint
# 적용 파일 읽기(제목 = title, 내용 = summary으로 구성)
input_df = pd.read_csv("data/input_data.csv", encoding="utf-8-sig")
# api key 입력
client = openai.OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "본인 API키를 여기 입력해주세요."))
# 파인 튜닝 모델 입력
fine_tuned_model_id = "파인튜닝 모델을 입력해주세요."
# input_df.head(1)
<파인튜닝 모델 찾는 법>
open ai api로 들어가셔서 fine tuning에 들어가보시면 생성한 모델이 있습니다. 클릭하시면 오른쪽에 빨간색으로 표시된 부분이 모델명이니 해당 부분 복사해서 fine_tuned_model_id에 입력해주시면 됩니다.
2-2. 프롬프트 구성
프롬프트 구성에 대해서는 전 글에서 설명드렸으니 참고해서 입력해주시면 됩니다. 위에서 말씀드린 것 처럼 저는 컬럼을 title, summary로 적용했습니다. 혹시 바꾸실 분들은 바꿔주세요.
# 프롬프트 구성
system_message = "You are an assistant who extracts breakdowns for iphone. Please keyword extract which breakdowns are in each data."
def create_user_message(row):
return f"""Title: {row['title']}\n\summary: {row['summary']}\n\nGeneric ingredients: """
def prepare_example_conversation(row):
messages = []
messages.append({"role": "system", "content": system_message})
user_message = create_user_message(row)
messages.append({"role": "user", "content": user_message})
return {"messages": messages}
2-3. 데이터 프레임에 대해 반복 적용
생성된 프롬프트를 반복문으로 파인튜닝 모델에 던지고 응답을 받아서, 새로운 결과물 데이터프레임을 생성하는 코드입니다. 그 후 결과물 데이터프레임을 엑셀로 저장하면 완료됩니다.
# 코드 초기화
output_data= []
input_messages = []
# 데이터프레임의 각 행에 대해 반복
for i in range(len(input_df)):
try:
# 시스템 메시지 생성
system_message = f"현재 행: {i+1}"
# 사용자 메시지 생성
user_message = create_user_message(input_df.iloc[i])
# 메시지 리스트를 초기화하여 새로운 메시지 리스트 생성
input_messages = []
# 시스템 메시지 추가
input_messages.append({"role": "system", "content": system_message})
# 사용자 메시지 추가
input_messages.append({"role": "user", "content": user_message})
# 답변 생성
response = client.chat.completions.create(
model=fine_tuned_model_id, messages=input_messages, temperature=0, max_tokens=500
)
# 답변을 리스트에 저장
output_data.append({
"index": i+1,
"title": input_df.iloc[i]['title'],
"summary": input_df.iloc[i]['summary'],
"response": response.choices[0].message.content
})
except Exception as e:
print(f"오류 발생: {e}")
# 리스트를 데이터프레임으로 변환
output_df = pd.DataFrame(output_data)
# 엑셀 파일로 저장
output_df.to_excel("data/output_data.xlsx", index=False)
이렇게 하면 index / title / summary / response(GPT가 준 응답) 4개의 컬럼으로 구성되어 있는 결과물이 생성됩니다.