기본 제공 AI

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

웹에서 AI 모델로 기능을 빌드할 때 대규모 모델을 위해서는 서버 측 솔루션을 사용하는 경우가 많습니다. 가장 작은 모델도 웹페이지 크기 중앙값보다 약 1, 000배 더 큰 생성형 AI의 경우에 특히 그렇습니다. 모델의 크기가 수십 메가바이트에서 수백 메가바이트까지일 수 있는 다른 AI 사용 사례에도 적용됩니다.

이러한 모델은 웹사이트 간에 공유되지 않으므로 각 사이트에서 페이지 로드 시 모델을 다운로드해야 합니다. 이 방법은 개발자와 사용자가

서버 측 AI는 대규모 모델에 훌륭한 옵션이지만 온디바이스 및 하이브리드 접근 방식에는 나름의 매력적인 이점이 있습니다. 이러한 접근 방식을 실행 가능하게 하려면 모델 크기 및 모델 제공을 해결해야 합니다.

이러한 이유로 Google에서는 대규모 언어 모델 (LLM)을 비롯한 AI 모델을 브라우저에 직접 통합하도록 설계된 웹 플랫폼 API와 브라우저 기능을 개발하고 있습니다. 여기에는 대부분의 최신 데스크톱 및 노트북 컴퓨터에서 로컬로 실행되도록 설계된 LLM의 Gemini 제품군의 가장 효율적인 버전인 Gemini Nano가 포함됩니다. 기본 제공 AI를 사용하면 웹사이트 또는 웹 애플리케이션에서 자체 AI 모델을 배포하거나 관리할 필요 없이 AI 기반 작업을 수행할 수 있습니다.

기본 제공 AI의 이점, Google의 구현 계획, 이 기술을 활용하는 방법을 알아보세요.

미리 보기

API를 구성하고, API가 사용 사례를 충족하도록 하며, 표준화를 위해 다른 브라우저 공급업체와의 논의를 위해서는 개발자의 의견이 필요합니다.

초기 미리보기 프로그램에 참여하여 초기 단계의 기본 제공 AI 아이디어에 관한 의견을 제공하고 로컬 프로토타입 제작을 통해 진행 중인 API를 테스트할 기회를 찾아보세요.

Chrome AI 개발자 공개 공지사항 그룹에 가입하여 새 API를 사용할 수 있을 때 알림을 받으세요.

웹 개발자를 위한 기본 제공 AI의 이점

브라우저는 AI가 기본 제공되므로 기반 및 전문가 모델을 제공하고 관리합니다.

내장 AI를 직접 사용하는 것과 달리 온디바이스 AI는 다음과 같은 이점을 제공합니다.

  • 배포 용이성: 브라우저가 모델을 배포할 때 기기의 기능을 고려하여 모델 업데이트를 관리합니다. 즉, 네트워크를 통해 대규모 모델을 다운로드하거나 업데이트할 필요가 없습니다. 스토리지 제거, 런타임 메모리 예산, 제공 비용, 기타 문제를 해결할 필요가 없습니다.
  • 하드웨어 가속 액세스: 브라우저의 AI 런타임은 사용 가능한 하드웨어(예: GPU, NPU)를 최대한 활용하거나 CPU로 대체하도록 최적화되어 있습니다. 따라서 앱은 각 기기에서 최고의 성능을 얻을 수 있습니다.

온디바이스 실행의 이점

AI에 기본 제공되는 접근 방식을 사용하면 온디바이스에서 AI 작업을 실행하기가 쉬워지므로, 다음과 같은 이점이 있습니다.

  • 민감한 정보 로컬 처리: 온디바이스 AI는 개인 정보 보호 스토리를 개선할 수 있습니다. 예를 들어 민감한 정보를 다루는 경우 엔드 투 엔드 암호화를 통해 사용자에게 AI 기능을 제공할 수 있습니다.
  • 빠른 사용자 환경: 경우에 따라 서버 간 왕복을 사용하지 않으면 거의 즉각적인 결과를 제공할 수 있습니다. 온디바이스 AI는 실행 가능한 기능과 최적화되지 않은 사용자 환경의 차이일 수 있습니다.
  • AI에 대한 액세스 확대: 사용자 기기에서 처리 부하의 일부를 부담하여 기능에 더 많이 액세스할 수 있습니다. 예를 들어 프리미엄 AI 기능을 제공하는 경우 온디바이스 AI로 이러한 기능을 미리 볼 수 있으므로 잠재고객이 추가 비용 없이 제품의 이점을 확인할 수 있습니다. 이 하이브리드 방식은 특히 자주 사용되는 사용자 흐름에서 추론 비용을 관리하는 데도 도움이 됩니다.
  • 오프라인 AI 사용: 인터넷에 연결되어 있지 않아도 사용자가 AI 기능에 액세스할 수 있습니다. 즉, 사이트와 웹 앱이 오프라인에서 또는 변동 가능한 연결로 예상대로 작동할 수 있습니다.

하이브리드 AI: 온디바이스 및 서버 측

온디바이스 AI는 다양한 사용 사례를 처리할 수 있지만 서버 측 지원이 필요한 특정 사용 사례도 있습니다.

예를 들어 더 큰 모델을 사용하거나 더 광범위한 플랫폼과 기기를 지원해야 할 수 있습니다.

다음에 따라 하이브리드 접근 방식을 고려할 수 있습니다.

  • 복잡성: 온디바이스 AI를 사용하면 구체적이고 접근하기 쉬운 사용 사례를 더 쉽게 지원할 수 있습니다. 복잡한 사용 사례의 경우 서버 측 구현을 고려하세요.
  • 복원력: 기본적으로 서버 측에서 사용하고, 기기가 오프라인 상태이거나 연결이 불안정할 때는 기기 내에서 사용합니다.
  • 단계적 대체: AI가 내장된 브라우저를 채택하는 데 시간이 걸리고, 일부 모델을 사용하지 못할 수 있으며, 구형이거나 덜 강력한 기기는 모든 모델을 최적으로 실행하기 위한 하드웨어 요구사항을 충족하지 못할 수 있습니다. 이러한 사용자에게 서버 측 AI를 제공하세요.

Gemini 모델의 경우 백엔드 통합 (Python, Go, Node.js 또는 REST 사용)을 사용하거나 새로운 웹용 Google AI 클라이언트 SDK를 사용하여 웹 애플리케이션에 구현할 수 있습니다.

브라우저 아키텍처 및 API

Chrome에 내장된 AI를 지원하기 위해 Google은 온디바이스 실행을 위한 기반 및 전문가 모델에 액세스할 수 있는 인프라를 만들었습니다. 이 인프라는 이미 작성 지원 기능과 같은 혁신적인 브라우저 기능을 지원하고 있으며 곧 온디바이스 AI용 API를 지원할 예정입니다.

기본 제공 AI 기능은 주로 translation API 또는 요약 API와 같은 태스크 API를 통해 액세스합니다. Task API는 할당에 가장 적합한 모델을 대상으로 추론을 실행하도록 설계되었습니다.

Chrome에서 이러한 API는 미세 조정 또는 전문가 모델을 통해 Gemini Nano를 대상으로 추론을 실행하도록 빌드되었습니다. 대부분의 최신 기기에서 로컬로 실행되도록 설계된 Gemini Nano는 요약, 문구 수정, 분류와 같은 언어 관련 사용 사례에 적합합니다.

또한 로컬에서 실험하고 추가 사용 사례를 공유할 수 있도록 탐색적 API를 제공할 예정입니다.

예를 들어 다음과 같은 정보를 제공할 수 있습니다.

  • Prompt API: 자연어로 표현된 임의의 태스크를 기본 제공 대규모 언어 모델 (Chrome의 Gemini Nano)으로 전송합니다.
  • 세부 조정 (LoRA) API: 낮은 순위 조정 미세 조정으로 모델의 가중치를 조정하여 작업에 대한 기본 제공 LLM의 성능을 개선합니다.
이 다이어그램은 웹사이트 또는 앱에서 작업 및 탐색적 웹 플랫폼 API를 사용하여 Chrome에 내장된 모델에 액세스하는 방법을 보여줍니다.

기본 제공 AI를 사용해야 하는 경우

내장된 AI가 개발자와 사용자에게 도움이 될 것으로 예상되는 몇 가지 방식을 소개합니다.

  • AI 강화 콘텐츠 소비: 요약, 번역, 일부 콘텐츠에 대한 질문에 답변, 분류, 특성 지정이 포함됩니다.
  • AI 지원 콘텐츠 생성: 글쓰기 지원, 교정, 문법 교정, 문구 수정 등

다음 단계

초기 미리보기 프로그램에 참여하여 초기 단계의 기본 제공 AI API를 실험해 보세요.

그동안 웹사이트 및 웹 앱에서 Google 서버의 Gemini Pro를 사용하는 방법은 Google AI JavaScript SDK 빠른 시작을 참고하세요.