GEMINI - 더밀크

인간처럼 '보고 듣고 말하고'를 한번에... 오픈AI, 옴니모델 GPT-4o 출시

오픈AI는 13일(현지시각) 진행한 스프링 제품 업데이트 라이브 스트리밍 이벤트에서 새로운 AI 모델 GPT-4o를 공개했다. GPT-4o는 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델이다. 기존 GPT 모델이 프롬프트를 데스크톱이나 모바일을 통해 글자(텍스트)를 입력하는 것에 그쳤다면 GPT-4o는 음성, 텍스트, 시각 등 다양한 인간의 활동을 입력, AI가 추론하고 그 결과를 거의 실시간으로 내놓을 수 있도록 한 것이다. GPT-4o의 o는 모든 것을 아우른다는 의미인 ‘옴니(omni)’에 따왔다. 이날 발표는 샘 알트만 CEO가 아닌 미라 무라티 CTO(최고기술책임자)가 무대에 올라 주요 기능을 설명했다.발표를 맡은 무라티 오픈AI CTO는 “GPT-4o는 GPT-4 터보 대비 2배 빠른 API(애플리케이션 프로그래밍 인터페이스)를 제공한다”고 밝혔다. 전 세계 인구 97%가 사용하는 50개 언어를 지원하며 텍스트 및 이미지 기능은 무료로 사용할 수 있다. GPT4o는 새로운 데스크톱 UI(사용자 인터페이스)를 통해 마치 '코파일럿' 처럼 작동할 수 있게 했다. 기존 GPT4 터보에 비해 2배 빠르고 50% 저렴하며 글자 제한도 5배나 높였다. 또 사람의 감정과 얼굴 표정도 인식하면서 현장에 참석한 오픈AI 직원들의 큰 박수를 받았다. 무라티 CTO는 “GPT-4o는 GPT-4 레벨의 지능을 더 빨리 제공한다"고 강조했다. 사람이 물흐르듯 대화하듯 빠른 반응을 내세운 것이다. 실제 GPT-4o의 평균 응답 시간은 232밀리초인데 이는 평균 320밀리초로 대답하는 인간과 비슷하다. GPT-3.5는 평균 2.8초의 응답 시간을, GPT-4가 5.4초였다.

박원익 2024.05.13 10:14 PDT

애플과 구글은 뉴IBM... 선도적이고 놀라운 혁신없이 지키기 급급

애플과 구글은 세계에서 가장 가치있는 기업이자 오늘날 실리콘밸리의 혁신 문화를 만든 장본인입니다. 애플은 MP3 플레이어 아이팟이 점유율 90%를 넘으며 시장을 지배할 때 MP3P 시장을 자기잠식할 수 있는 스마트폰 '아이폰'을 내놓고 시장을 뒤흔들고 혁신의 아이콘으로 자리잡았습니다. 구글은 인터넷 검색으로 시작, 모바일 운영체제 '안드로이드'로 시장을 장악하며 디지털 세상을 재정의했습니다. 하지만 2024년들어 애플과 구글이 혁신하기는 커녕 현존 시장을 지키기에 급급한 모습을 보이며 실리콘밸리 내에서도 큰 비판을 받고 있습니다. 무슨 일일까요?

Sejin Kim 2024.05.11 14:16 PDT

바로 현장 투입하는 로봇 나온다... 메타버스+AI ‘닥터유레카’

더밀크 인사이트①: ‘닥터유레카’로 보는 엔비디아의 전략

박원익 2024.05.06 16:50 PDT

미국 민간이 AI초격차 주도... 2024 AI 핵심 트렌드 7

2024년, 인공지능(AI) 기술은 어디에서 왔고 방향으로 가고 있을까? 지난 2022년에는 생성AI가 대중에게 강력하게 인식됐고, 2023년은 비즈니스 세계에 뿌리내리기 시작했다. 2024년은 연구자들과 기업이 이 기술의 진화를 일상 생활에 가장 실질적으로 통합할 수 있는 방법을 모색하면서 AI의 미래를 위해 나아가는 중추적인 해가 될 것이다.IBM 리서치에 따르면 생성 AI의 진화는 극적으로 빨라지긴 했지만, 컴퓨터 진화와 유사한 양상이다. 중앙에서 운영되는 소수의 대규모 메인프레임 컴퓨터는 기업과 연구 기관에서 사용할 수 있는 더 작고 효율적인 컴퓨터로 대체됐다. 그 후 수십 년 동안 점진적인 발전을 통해 취미로도 사용할 수 있는 가정용 컴퓨터가 탄생했다. 시간이 지나면서 코드가 필요 없는 직관적인 인터페이스를 갖춘 강력한 개인용 컴퓨터가 보편화 됐다. 생성 AI는 더 작은 패키지로 더 큰 성능을 달성하는 것을 목표로 발전하고 있다. 2023년에는 Meta의 대규모 언어 모델(LLM) 제품군인 라마 출시를 시작으로 스테이블LM(StableLM), 펠콘(Falcon), 미스트랄(Mistral), 라마2(Llama 2) 등 오픈 라이선스를 통해 더 효율적인 기반 모델(foundation model)이 폭발적으로 증가했다. 스탠포드 인간 중심 인공지능 연구소(HAI)에서 발간한 AI 보고서, <2024 AI 인덱스 리포트>에서는 이러한 AI 트렌드에 대한 상세한 분석을 제공하고, 책임 있는 인공지능에 대한 장과 과학 및 의학 분야의 인공지능에 대한 새로운 장을 추가했다. R&D, 기술 성과, 경제, 교육, 정책 및 거버넌스, 다양성 및 여론에 대한 일반적인 요약도 포함됐다. 이 리포트는 500페이지나 된다. 핵심을 추려 AI 트렌드 중 의미있는 시그널이 될만한 데이터 7가지를 꼽아봤다.

한연선 2024.05.05 07:25 PDT

AI
EDUTECH

영어학습 앱의 종말? 구글, AI 영어 스피킹 앱 실험 중

인공지능(AI) 기술로 에듀테크의 판도가 더 크게 바뀔 조짐이다. 구글이 생성AI를 도입한 영어학습 앱을 테스트 중이다. 구글이 자사 검색 서비스에 이 기능을 본격 탑재할 경우 영어학습앱에 미치는 영향은 상당할 것으로 보인다. 당연한 질문이 생긴다. 구글이 침투하려는 시장이 과연 영어학습 앱 뿐일까?

Sejin Kim 2024.05.02 00:48 PDT

오픈AI도? 아이폰으로 ‘AI 주도권’ 역전... 애플의 미래는

새로운 LLM ‘센스노바 5.0’ 발표 당일 홍콩 증시에 상장돼 있는 중국 최대 AI 기업 센스타임의 주가는 전날 종가 대비 36% 급등했습니다. GPT-4 터보를 뛰어넘은 벤치마크 점수를 기록했다는 점에 업계는 물론 투자자들의 기대감이 반영된 것입니다. 쉬 리 센스타임 CEO는 “센스노바 5.0의 창의적 글쓰기, 추론 능력은 크게 향상됐다. 동급 최고의 수학, 코딩 추론 기능을 자랑한다”고 강조했습니다.발표 현장에서 공유된 자료, 데이터를 살펴보면 센스노바 5.0의 MMLU(대규모 다중작업 언어 이해) 점수는 오픈AI의 GPT-4 터보, 앤트로픽의 클로드3 오푸스, 최근 공개된 메타의 라마3 70B를 모두 능가했습니다. 수학을 제외한 대부분의 영역에서 가장 높은 점수를 기록한 것으로 전해집니다.

박원익 2024.04.29 16:31 PDT

AI
AGI

AGI 시대 3년내 윤곽... "생성AI로 인간 능력 후퇴 우려"

인간처럼 사고하고 행동할 수도 있는 인공지능(AI), '일반인공지능(AGI)'에 대한 기대와 두려움이 커지는 가운데, AI가 이미 인간의 학습능력을 침범하기 시작했다는 주장이 나왔다. 이때 눈에 띄는 변화는 AI의 추격이 아닌 인간 스스로의 후퇴다. 이장선(학계 활동명: 칼 스트라토스) 럿거스대학교(뉴저지주 주립대) 교수는 AGI 시대에 앞서 인간이 경계해야 할 점으로 ‘생각의 자동화’를 꼽았다. 미국 고등교육 현장에서 이미 이를 피부로 느끼고 있다. 챗GPT 등으로 학교 과제가 무의미해지고, 인간의 학습 능력이 쇠퇴하기 시작했다는 것. 이 교수는 미국 컬럼비아대학교를 거쳐 현재 럿거스 대학교에서 AI 비지도 학습법 및 지식사용모델 개발을 연구하는 미국 내에서도 손꼽히는 AI 전문가다.

Sejin Kim 2024.04.29 14:45 PDT

사업재편∙해고∙구조조정... 2024년 구글의 움직임을 주목하라

구글 모회사인 알파벳이 본격적인 AI 시대 새로운 도약을 위해 회사 체질 개선에 나섰습니다. 올해 회사 창립 25년이 됐는데 사업 재편은 물론, 해고와 구조조정 등을 단행하고 있는 것입니다.

Sejin Kim 2024.04.20 21:41 PDT

영상 산업혁명 : AI+인간 협업으로 뉴리얼리티 만든다

영화 ‘솜 레퀴엠(Somme Requiem)’은 1914년 제1차세계대전 크리스마스 휴전 당시 눈보라에 갇힌 군인들의 이야기를 다룬다. 마일스(MYLES)스튜디오가 만든 이 2분30초 길이의 영화는 생성AI 영상 제작 프로그램 런웨이(Runway)가 제작에 활용됐다. 런웨이로 초벌영상을 제작하고 인간이 시나리오와 음악, 영상 편집 작업을 하는 방식이다. 생성AI로 영상 제작 환경이 급변하고 있다. 현재 시장은 런웨이, 피카랩스 등이 이미 서비스를 제공하고 있고, 높은 영상 퀄리티로 화제가 된 오픈AI의 소라(Sora)는 연내 정식 출시를 예고했다. 구글 클라우드도 최근 AI 동영상 제작 솔루션 비즈(Vids)를 내놓는 등 시장은 커지고 있다. 영상 제작 환경이 인간과 생성AI가 협업하는 하이브리드 체제로 변할 것이라는 전망이 나온다. 단순 프롬프트(명령어)만으로 높은 퀄리티의 영상을 생성하는 AI 제작 프로그램의 기술적 완성도가 높아지는 가운데, 인간의 역할은 전체 시나리오 기획, 영상 추출, 수정, 편집 업무로 옮겨갈 것이란 분석이다. 딥페이크 영상 등에 대한 우려를 불식하려는 서비스에서도 역할을 찾을 수 있다.

Sejin Kim 2024.04.16 16:06 PDT

AI 기업 잡아라… 구글 클라우드가 ‘소버린AI’ 내세운 이유

구글이 자사 클라우드 제품에 생성인공지능(Generative AI) 기능을 대거 도입했다. 클라우드 제품에 대형언어모델(LLM) ‘제미나이(Gemini)’를 전면 적용했다. 코드작성 보조도구 ‘제미나이코드어시스트’, AI 앱 최적화 프로그램 ‘제미나이클라우드어시스트’ 등이 그 예다.‘구글 분산형 클라우드(Google Distributed Cloud, GDC)’이라는 큰 체제 하에 소버린 클라우드(Google Sovereign Clouds), 크로스 클라우드(Cross-Cloud) 등을 제시하며 각 고객사가 각자 사정에 맞게 ‘맞춤화’할 수 있는 기능을 강조한 게 특징이다. 여기에 더해 인프라 단에는 엔비디아의 블랙웰 등을 도입, 생성AI 클라우드 제품에서 기술적 우위도 강조했다. 구글은 지난 2월 개인대상(B2C) 서비스 주력 제품이었던 제미나이가 부정확한 역사적 이미지 생성으로 논란을 겪은 바 있다. 이번 발표에서 기업별 맞춤형 생성AI 기능을 강화한 클라우드 제품을 강조하며 기업대상(B2B) 서비스로 돌파구를 마련하겠다는 의지로 풀이된다. 제미나이가 소비자용 시장에선 고전하고 있지만, ‘기업용 시장에선 다르다’는 게 토마스 쿠리안 구글 클라우드 대표의 말이다.

Sejin Kim 2024.04.10 08:11 PDT

구글 ‘생성 AI 에이전트’ 시대 천명… 고객 상담·영상 편집 척척

9일(현지시각) 라스베이거스 만달레이 베이 호텔. 구글 클라우드의 연례 기술 컨퍼런스 ‘구글 클라우드 넥스트 2024(Google Cloud Next 24)’ 기조연설 무대에 오른 아만다 루이스 구글 클라우드 디벨로퍼 애드버킷(Developer Advocate)은 “구글 클라우드 기반 ‘AI 에이전트(Agent, 비서)’ 기능을 갖춘 쇼핑몰을 이용하면 된다”며 이같이 말했다.

박원익 2024.04.09 15:58 PDT

빅테크 혁신은 계속된다... 헤이 메타, 엔트로픽, 테슬라 언박싱 공정

생성 AI 등장으로 새로운 디바이스 경쟁도 치열한 가운데, 메타가 인공지능(AI)을 탑재한 스마트글라스 '레이밴 메타'를 본격적으로 출시할 예정입니다. 28일(현지시간) 뉴욕타임스 보도에 따르면 다중모달 AI기능을 통해 번역뿐 아니라 물체, 동물, 기념물을 식별할 수 있을 것으로 예상되는데요. 이미 지난해 12월부터 미국에서 초기 액세스 대기자들을 대상으로 해당 기능을 제공하고 있습니다. 사용자는 스마트 안경을 착용한 뒤 '헤이 메타(Hey Meta)'라고 말하고 프롬프트를 제시하거나 질문을 통해 안경의 스마트 어시스턴트를 활성화할 수 있습니다. 스마트 안경은 프레임에 내장된 스피커를 통해서 응답하는 방식입니다. 마치 애플 아이폰에서 "헤이 시리"라고 말하는 것과 같은 이치인데요. 음성으로 묻고, 글라스 화면에서 보이는 것들에 대한 설명도 가능하다는 점에서 차이가 있을 것으로 보입니다.👉 "애완동물 식별, 눈에 보이는 글씨 타 언어 번역까지"메타의 레이반 스마트 글라스는 디자인이나 기능 측면에서 자사의 퀘스트나 애플의 비전프로와는 상당히 다른 개념인데요. 뉴욕타임스는 실제 안경을 착용하고 슈퍼마켓, 운전, 박물관, 동물원 등에서 이를 테스트했습니다. 예를 들어 "헤이 메타, 내가 지금 보고 있는 게 뭐지"라고 물으면, 글라스를 통해 사물을 식별한 스마트안경이 "혀를 내밀고 바닥에 앉아 있는 귀여운 코기 강아지”라는 음성을 제시하는 방식입니다. 번역 측면에서도 탁월한 기능을 발휘했다고 하는데요. 책 표지의 제목을 독일어로 번역해 제공하기도 합니다. 뉴욕타임스는 "메타의 AI는 애완동물과 작품을 정확하게 식별할 수 있었지만, 100% 정확하지는 않았다"며 "안경이 먼 거리에 있는 동물 등을 식별하는데 어려움을 겪기도 했다"라고 설명했습니다. 뉴욕타임스는 영화 '허(Her)'의 AI어시스턴트와 유사하다고 평가했는데요. 메타 대변인은 "기술이 아직 새롭고 완성단계가 아니기 때문에 시간이 지나면서 개선될 것"이라고 설명했습니다. 뉴욕타임스는 "메타의 AI 기반 글라스는 멀게만 보였던 미래를 흥미롭게 엿볼 수 있는 기회를 제공한다"며 "안경을 통해 언어를 번역하고 랜드마크를 식별하는 작업 수행 능력은 기술의 발전이 얼마나 빠르게 이뤄졌는지 알 수 있었다"라고 평가했습니다. 다만 더 좋은 렌즈를 활용할 경우 부피가 커질 수 있고, 가상 비서와의 대화가 아직은 어색하기 때문에 개선 여지는 남아있다고 덧붙였습니다.

권순우 2024.03.28 17:08 PDT