Das neue Feature Computerbenutzung (Computer Use) in Copilot Studio ermöglicht es Agenten, einen echten Windows‑Computer wie ein Mensch zu bedienen – inklusive Klicken, Tippen, Scrollen, Filtern oder dem Ausfüllen von Formularen.
Hinweis: Nur verfügbar für Umgebungen mit Speicherort in den USA
- Ein Agent kann Websites und Desktop‑Apps automatisieren, indem er Buttons auswählt, Menüs bedient und Text eingibt – gesteuert über eine virtuelle Maus und Tastatur.
- Die dahinterliegende Technologie heißt Computer‑Using Agents (CUA), ein KI‑Modell mit visuellen Fähigkeiten und logischer Planung, das sich an UI‑Änderungen anpasst.

- Sie eignet sich besonders, wenn keine API verfügbar ist – z. B. bei Legacy‑Systemen, PDF‑Daten, klassischen Formularen oder Websites mit Login‑Oberflächen.

Wie ein Agent mit Computerbenutzung aufgebaut wird
1. Tool hinzufügen
In Copilot Studio fügt man dem Agenten das Tool „Computerbenutzung“ hinzu.
Man gibt natürliche Sprachinstruktionen ein, etwa:
„Öffne das Dokument, extrahiere die Rechnungsnummer und trage sie in das Formular ein.
2. Konfiguration
Es werden definiert: Name, Beschreibung und detaillierte Schritte.
3. Testmodus
Beim Testen startet Copilot Studio:
- einen virtuellen Windows‑Computer,

- führt die Anweisungen Schritt für Schritt aus,
- erstellt Screenshots und Aktivitätsprotokolle, sodass der Autor alles nachvollziehen kann.
4. UI‑Interaktion wie ein Mensch
Der Agent erkennt Buttons, Felder und Menüs visuell und klickt sie – ähnlich wie moderne KI‑gestützte RPA‑Lösungen.
Microsoft betont, dass der Agent bei UI‑Änderungen flexibel bleibt, da er visuelle Logik statt fixer Selektoren nutzt.
5. Ausrollen in die Produktion
Der veröffentlichte Agent kann dann:
- unbeaufsichtigt laufen
- Aufgaben wiederholen
- Daten extrahieren und übertragen
- mit Governance‑Regeln und Audit‑Trails abgesichert werden
(neue Funktionen: verschiedene Modelle, bessere Sicherheit, integrierte Credentials wie Azure Key Vault).
Beispiel: Rechnungsverarbeitung
Ein typischer Ablauf sieht so aus:
- Der Agent erhält den Auftrag:
„Hole die neueste PDF‑Rechnung aus SharePoint und übertrage die Daten ins Rechnungsformular.“ - Computerbenutzung startet
Der Agent reserviert einen virtuellen Rechner (Status im Bild sichtbar).

- Agent klickt sich durch SharePoint
- Öffnet die Dokumentenbibliothek
- Filtert nach „neueste Rechnung“
- Öffnet die PDF

- Extraktion & Übertragung
Die KI erkennt die Inhalte und trägt sie in das SharePoint‑Formular ein.

- Abschluss & Rückmeldung
Der Agent beendet die Sitzung und liefert eine sauber dokumentierte Ausführung zurück.
Fazit:
Der Agent hat einige Anläufe benötigt, um den Auftrag auszuführen:
- Öffnen einer SharePoint‑Dokumentbibliothek
- Filtern der neuesten Rechnung
- Öffnen der PDF‑Datei
- Ausfüllen eines SharePoint‑Formulars mit den extrahierten Rechnungsdaten
- Speichern des Eintrags
Alle Schritte bis auf das Speichern sind erfolgreich umgesetzt worden. Trotz weiterer Anpassungen, wie explizit „Speichere es“ hat es nicht funktioniert. Der Dienst ist noch nicht final fertig, da der Agent auf meine Bestätigung als Mensch (Menschliche Aufsicht) wartete und aufgrund fehlender Zustimmung nicht weiter machte.

Es war recht beeindruckend zu beobachten, wie der Agent alles Schritt für Schritt ausgeführt hatte. Obwohl der Dienst hier und da hackt, es recht lange gedauert hat, bis der Prozess abgeschlossen worden ist.
Im Aktivitäten-Verlauf hat der Agent alles protokolliert.

Warum das Feature so wichtig ist
Durch Computerbenutzung verschmelzen:
- LLM‑Intelligenz (Verstehen der Aufgabe)
- RPA‑ähnliche Ausführung (Klicken und Tippen)
- Governance und Sicherheit (Kontrollen, Logs, Credential‑Handling)
Damit können Unternehmen komplexe, API‑lose Geschäftsprozesse automatisieren, die vorher manuelle Arbeit erfordert haben.