Google veröffentlicht Gemini 2.5 Computer Use Modell

Google stellt ein spezialisiertes „Gemini 2.5 Computer Use“-Modell vor, das auf Gemini 2.5 Pro aufbaut und für die Steuerung grafischer Oberflächen ausgelegt ist. Das Modell ist als Public Preview über die Gemini-API verfügbar und kann in Google AI Studio sowie über Vertex AI genutzt werden. Es adressiert Szenarien, in denen Prozesse nur über GUIs zugänglich sind—etwa Formulareingaben, Filterbedienung oder mehrstufige Webdialoge hinter Logins.

Technisch erfolgt der Zugriff über das neue API-Tool computer_use. Der Agent arbeitet in einer Schleife: Aufgabe, Screenshot und Verlauf rein; das Modell schlägt UI-Aktionen wie Klicken, Tippen oder Scrollen vor; die Client-App führt aus und liefert einen neuen Screenshot zurück—bis zum Abschluss oder einem Abbruch. Laut Google ist das Modell vor allem für Browser optimiert; OS-weite Desktop-Kontrolle ist nicht das Ziel der Preview. Die Funktionsliste und Integrationshinweise dokumentiert Google im Entwicklerbereich.

Zur Leistungsbewertung verweist Google auf Benchmarks wie Online-Mind2Web, WebVoyager und AndroidWorld. Im begleitenden Dokument wird für Online-Mind2Web eine durch menschliche Bewertung ermittelte Erfolgsrate von 69 Prozent genannt. Zusätzlich hat der Anbieter Browserbase Messungen mit identischen Rahmenbedingungen für mehrere Computer-Use-APIs durchgeführt. Google weist zugleich darauf hin, dass selbstberichtete Ergebnisse zwischen Anbietern schwer vergleichbar sind—etwa wegen Datumsbezügen und unterschiedlichen Testmengen.

Für die Praxis betont Google Sicherheitsvorkehrungen: Ein „Per-Step“-Dienst bewertet jede vorgeschlagene Aktion vor der Ausführung. Entwickler können festlegen, dass bestimmte Schritte—zum Beispiel Käufe, das Umgehen von CAPTCHAs oder sicherheitsrelevante Eingriffe—verweigert oder nur nach Bestätigung ausgeführt werden. Die Schutzmaßnahmen zielen auf Risiken wie Missbrauch, Prompt-Injections und unerwartetes Modellverhalten im Webkontext. Eigene Tests und Freigaben ersetzen sie nicht.

Einordnung: Für IT-Teams und Unternehmen ähnelt der Ansatz der Idee moderner RPA, aber mit multimodalem Modell im Kern statt fest verdrahteter Selektoren. Spannend sind wiederkehrende, GUI-gebundene Abläufe mit klaren Erfolgskriterien—vom Dateneintrag in Portalen bis zu einfachen Backoffice-Tasks. Teams sollten stabile UI-Flows und Audit-Logs vorsehen, Berechtigungen granular steuern und Latenz sowie Kosten beobachten: Der Screenshot-Loop erzeugt naturgemäß zusätzliche Runden. Google nennt interne Einsätze (u. a. UI-Tests) und verweist auf Vorarbeiten wie Project Mariner, den Firebase Testing Agent und agentische Funktionen im „AI Mode in Search“.

Wer starten will, findet Zugang in AI Studio und Vertex AI; eine Demo-Umgebung bei Browserbase sowie Referenzimplementierungen erleichtern den Einstieg. Für Pilotprojekte bieten sich risikoarme Routineaufgaben mit klarer Messung (Schritte, Erfolgsquote, Abbruchgründe) an, bevor sensible Prozesse automatisiert werden.

Externer Link zum Thema:

Beitrag auf dem Google Blog

Google veröffentlicht Gemini 2.5 Computer Use Modell

Schreibe einen Kommentar Antwort abbrechen