구글의 차세대 AI 모델 토토사이트 토사장(Gemini)는 뭐가 특별한 것일까? 실질적으로 최초의 멀티모달(다양한 입력 처리)을 구현했다는 것만으로는 명확하지가 않다. 구글 공식 블로그에서 소개하고 있는데 제미나의 특별한 기능을 정리해 본다.
진정한 멀티모달 모델
기술 설명의 첫 부분부터 멀티모달에 대한 설명이 나온다.
지금까지 멀티모달 모델을 만드는 표준 접근 방식은 서로 다른 모달리티에 대해 개별 구성 요소를 학습시킨 다음 이를 서로 연결하여 일부 기능을 대강 모방하는 방식이었다. 이러한 모델은 이미지 설명과 같은 특정 작업은 잘 수행하지만 개념적이고 복잡한 추론에는 결과가 좋지 않을 수 있다.
우리는 처음부터 다양한 모달리티에 대한 사전 학습을 통해 기본적으로 멀티모달이 되도록 설계했다. 이후 추가적인 멀티모달 데이터로 미세조정하여 그 효과를 개선했다. 이를 통해 제미나이는 처음부터 모든 종류의 입력을 원활하게 이해하고 추론할 수 있으며 기존 멀티모달 모델보다 훨씬 뛰어나며 거의 모든 영역에서 최고 수준의 기능을 제공한다.
정교한 추론 기능
제미나이 1.0의 정교한 멀티모달 추론 기능은 복잡한 문서와 시각적 정보를 이해하는데 활용할 수 있다. 방대한 양의 데이터 속에서 식별하기 어려운 지식을 찾아내는데 독보적인 능력을 발휘한다.
정보를 읽고 필터링하고 이해하여 수십만 개의 문서에서 통찰을 끌어내는 능력은 과학부터 금융에 이르기까지 다양한 분야에서 새로운 돌파구를 찾는데 도움이 될 것이다.
문자, 이미지, 오디오, 비디오 이해 기능
제미나이 1.0은 문자, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었기 때문에 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있다. 수학이나 물리학 같은 복잡한 주제를 추론하여 설명하는 것을 잘한다.
향상된 코딩 기능
제미나이의 첫 번째 버전은 Python, Java, C++, Go와 같이 가장 인기 있는 프로그래밍 언어들의 고품질 코드를 이해하고 설명하며 생성할 수 있다. 여러 언어에서 작업하고 복잡한 정보를 추론할 수 있는 능력은 최고 수준의 코딩 기초 모델 중 하나다.
제미나이 울트라(Ultra)는 코딩 작업의 성능을 평가하는 업계 표준인 HumanEval과 직접 생성한 소스를 사용하는 내부 데이터 세트인 Natural2Code를 비롯한 여러 코딩 벤치마크에서 높은 성능을 발휘했다.
제미나이는 고급 코딩 시스템을 위한 엔진으로도 사용할 수 있다. 2년 전, 우리는 프로그래밍 대회에서 높은 성과를 거둔 최초의 AI 코드 생성 시스템인 AlphaCode를 선보였다.
토토사이트 토사장의 특수 버전을 사용하여 우리는 AlphaCode2라는 고급 코드 생성 시스템을 개발했다. 이 시스템은 코딩을 넘어 복잡한 수학과 이론적인 컴퓨터 공학과 복잡한 수학을 포함한 경쟁 프로그래밍 문제 해결에 좋은 성과를 낸다.
기존 AlphaCode와 동일한 플랫폼에서 평가했을 때 AlphaCode 2는 거의 두 배에 가까운 문제를 해결하는 등 크게 개선된 모습을 보였다. 프로그래머가 코드 샘플이 따라야 할 특정 속성을 정의하여 AlphaCode 2와 협업할 경우 개발 성과는 더욱 향상된다.
구글 블로그 소개 내용을 정리하면서 느낀 점은 구글은 여전히 기술적인 설명에 스스로 심취해 있는 듯 하다. 2022년 11월 오픈AI의 챗GPT가 등장했을 때 사람들은 기술보다는 편하게 문장으로 질문하면 알아서 척척 대답하는 챗GPT의 단순한 기능과 놀라운 응답 결과에 열광했던 것이다.
지난 번 바드(Bard) 기술 시연에서 망신을 당한 적이 있었는데 이번 발표도 일반 이용자 관점보다는 개발자나 연구자들의 관점이 여전히 많이 남아 있어 아쉽다.
게다가 이번 발표에서 최고 기능을 가진 제미나이 울트라는 내년에나 출시된다고 하니 김이 좀 빠진 느낌이다. 자진해서 쇼케이스 같다는 느낌을 줄 필요는 없지 않았을까? (애플 프레젠테이션을 좀 배워야 할 듯 하고 아니면 오픈AI 프레젠테이션이라도 좀 벤치마킹 해야겠다.)
- 구글 CEO 순다르 피차이, 토토사이트 토사장(Gemini)를 어떻게 소개했나? (전문 번역)
- 토토사이트 모멘트(Gemini)란 무엇인가? 토토사이트 모멘트 빠르게 이해하기
- 구글, 토토사이트 토사장(Gemini) AI 모델 발표 - 데미스 하사비스의 소개
- 생성Ai와 콘텐츠 산업의 미래 전망
- 생성Ai가 콘텐츠 산업에 기여하는 5가지 방법
- 구글 토토사이트 토사장(Gemini), 시연영상 조작 파문
- KT, 거대언어모델(LLM) '믿음'의 글로벌 Ai 시장 전략
- SKT, 나만의 토토사이트 황토 개인비서 '에이닷(A.)'
- 구글 토토사이트 토사장 Ai, 사람 이미지 생성 중단 ... 어쩌나 구글
- 애플, 생성Ai 애니메이션 '키프레이머'는 텍스트로 이미지에 움직임 적용 가능
- 구글, Ai Overview 기능 출시와 의미