Wie „Agenten mit Computerbenutzung“ in Copilot Studio funktionieren (Vorschau)

Das neue Feature Computerbenutzung (Computer Use) in Copilot Studio ermöglicht es Agenten, einen echten Windows‑Computer wie ein Mensch zu bedienen – inklusive Klicken, Tippen, Scrollen, Filtern oder dem Ausfüllen von Formularen.

Hinweis: Nur verfügbar für Umgebungen mit Speicherort in den USA

  • Ein Agent kann Websites und Desktop‑Apps automatisieren, indem er Buttons auswählt, Menüs bedient und Text eingibt – gesteuert über eine virtuelle Maus und Tastatur.
  • Die dahinterliegende Technologie heißt Computer‑Using Agents (CUA), ein KI‑Modell mit visuellen Fähigkeiten und logischer Planung, das sich an UI‑Änderungen anpasst.

Ein Bild, das Text, Schrift, Screenshot, Zahl enthält.

KI-generierte Inhalte können fehlerhaft sein.

  • Sie eignet sich besonders, wenn keine API verfügbar ist – z. B. bei Legacy‑Systemen, PDF‑Daten, klassischen Formularen oder Websites mit Login‑Oberflächen.

Ein Bild, das Text, Screenshot, Schrift, Design enthält.

KI-generierte Inhalte können fehlerhaft sein.

Wie ein Agent mit Computerbenutzung aufgebaut wird

1. Tool hinzufügen

In Copilot Studio fügt man dem Agenten das Tool „Computerbenutzung“ hinzu.
Man gibt natürliche Sprachinstruktionen ein, etwa:
„Öffne das Dokument, extrahiere die Rechnungsnummer und trage sie in das Formular ein.

2. Konfiguration

Es werden definiert: Name, Beschreibung und detaillierte Schritte.

3. Testmodus

Beim Testen startet Copilot Studio:

  • einen virtuellen Windows‑Computer,

Ein Bild, das Text, Screenshot, Software, Webseite enthält.

KI-generierte Inhalte können fehlerhaft sein.

  • führt die Anweisungen Schritt für Schritt aus,
  • erstellt Screenshots und Aktivitätsprotokolle, sodass der Autor alles nachvollziehen kann.

4. UI‑Interaktion wie ein Mensch

Der Agent erkennt Buttons, Felder und Menüs visuell und klickt sie – ähnlich wie moderne KI‑gestützte RPA‑Lösungen.
Microsoft betont, dass der Agent bei UI‑Änderungen flexibel bleibt, da er visuelle Logik statt fixer Selektoren nutzt.

5. Ausrollen in die Produktion

Der veröffentlichte Agent kann dann:

  • unbeaufsichtigt laufen
  • Aufgaben wiederholen
  • Daten extrahieren und übertragen
  • mit Governance‑Regeln und Audit‑Trails abgesichert werden
    (neue Funktionen: verschiedene Modelle, bessere Sicherheit, integrierte Credentials wie Azure Key Vault).

Beispiel: Rechnungsverarbeitung

Ein typischer Ablauf sieht so aus:

  1. Der Agent erhält den Auftrag:
    „Hole die neueste PDF‑Rechnung aus SharePoint und übertrage die Daten ins Rechnungsformular.“
  2. Computerbenutzung startet
    Der Agent reserviert einen virtuellen Rechner (Status im Bild sichtbar).

Ein Bild, das Text, Screenshot, Webseite, Website enthält.

KI-generierte Inhalte können fehlerhaft sein.

  1. Agent klickt sich durch SharePoint
  • Öffnet die Dokumentenbibliothek
  • Filtert nach „neueste Rechnung“
  • Öffnet die PDF

Ein Bild, das Screenshot, Text, Software, Webseite enthält.

KI-generierte Inhalte können fehlerhaft sein.

  1. Extraktion & Übertragung
    Die KI erkennt die Inhalte und trägt sie in das SharePoint‑Formular ein.

Ein Bild, das Text, Screenshot, Schrift, Zahl enthält.

KI-generierte Inhalte können fehlerhaft sein.

  1. Abschluss & Rückmeldung
    Der Agent beendet die Sitzung und liefert eine sauber dokumentierte Ausführung zurück.

Fazit:

Der Agent hat einige Anläufe benötigt, um den Auftrag auszuführen:

  1. Öffnen einer SharePoint‑Dokumentbibliothek
  2. Filtern der neuesten Rechnung
  3. Öffnen der PDF‑Datei
  4. Ausfüllen eines SharePoint‑Formulars mit den extrahierten Rechnungsdaten
  5. Speichern des Eintrags

Alle Schritte bis auf das Speichern sind erfolgreich umgesetzt worden. Trotz weiterer Anpassungen, wie explizit „Speichere es“ hat es nicht funktioniert. Der Dienst ist noch nicht final fertig, da der Agent auf meine Bestätigung als Mensch (Menschliche Aufsicht) wartete und aufgrund fehlender Zustimmung nicht weiter machte.

Ein Bild, das Text, Screenshot, Schrift, Webseite enthält.

KI-generierte Inhalte können fehlerhaft sein.

Es war recht beeindruckend zu beobachten, wie der Agent alles Schritt für Schritt ausgeführt hatte. Obwohl der Dienst hier und da hackt, es recht lange gedauert hat, bis der Prozess abgeschlossen worden ist.

Im Aktivitäten-Verlauf hat der Agent alles protokolliert.

Ein Bild, das Text, Screenshot, Software, Webseite enthält.

KI-generierte Inhalte können fehlerhaft sein.

Warum das Feature so wichtig ist

Durch Computerbenutzung verschmelzen:

  • LLM‑Intelligenz (Verstehen der Aufgabe)
  • RPA‑ähnliche Ausführung (Klicken und Tippen)
  • Governance und Sicherheit (Kontrollen, Logs, Credential‑Handling)

Damit können Unternehmen komplexe, API‑lose Geschäftsprozesse automatisieren, die vorher manuelle Arbeit erfordert haben.

Kommentare sind geschlossen