Artificial Intelligence in Real-Time-Simulations | ZHAW Institut für Datenanalyse und Prozessdesign IDP

Projekttitel 1.1

Deep-Learning Methoden (Reinforcement Learning Algorithmen mit Q-Learning) wurden eingesetzt, um eine optimale Handlungsstrategie in einer Echtzeitsimulation zu finden.

Die Farming Simulator Serie (im deutschen Sprachraum als Landwirtschafts-Simulator bekannt) ist eine der weltweit erfolgreichsten Videospiel-Serien zum Thema Landwirtschaftssimulationen. Diese wird seit 2008 von der GIANTS Software GmbH entwickelt und wird ca. zweijährlich mit einer neuen Version erweitert. Die GIANTS Software GmbH ist mittlerweile der grösste Spieleentwickler in der Schweiz. Für dieses Spiel wurde nun eine artifizielle Intelligenz trainiert.

Die Komplexität von Computergegnern in Spielsimulationen ist über die letzten Jahren stetig gewachsen. Dennoch werden nach wie vor “straightforward”-Methoden zur Modellierung und Implementierung des Spielegegnerverhaltens eingesetzt. Traditionellerweise erfolgt die Verhaltenssteuerung durch Regelsysteme, zustandsbasierte Methoden und in jüngster Zeit mittels Fuzzy Logik. Dabei wird der aktuelle Zustand des Spiels durch eine Reihe abstrakter, von Hand gewählten Merkmale charakterisiert und die Aktionen werden je nach Zustand entweder deterministisch oder zufallsgetrieben generiert. Die Regeln und Strategien müssen von den Entwicklern einzeln codiert werden und setzen ein grosses Wissen über die Spielmechanik voraus.

GIANTS Software

Beim Reinforcement Learning lernt ein Agent selbstständig eine optimale Spiele-Strategie in dem er versucht die Belohnung, die er durch seine Aktionen erhält, zu maximieren. Ein Neuronales Netzwerk (Agent) interagiert dabei mit einer Umgebung (Environment), von der er für seine Aktionen eine Rückmeldung (Belohnung/Reward) erhält. Mittels der Q-Learning-Methode wird dabei versucht, für jeden Aktionsschritt (action) das beste Verhalten (policy) zu berechnen.

Diese bisher eingesetzten Methoden haben jedoch Nachteile und Limitationen, welche sich bei sogenannten Deep-Learning-Verfahren, insbesondere beim Reinforcement Learning, nicht zeigen. Beispielsweise erlauben es traditionelle Methoden dem Spieler häufig das Verhalten des Gegners zu durchschauen, da nur eine limitierte Anzahl von Taktiken und Strategien möglich sind. Dadurch kann der Spieler die Schwächen des Gegners leicht ausnützen und das Spiel verliert durch fehlende Herausforderung schnell an Unterhaltungswert.

Artifizielle Neuronale Netze, insbesondere Reinforcement Learning Networks, haben im Vergleich zu anderen Lernverfahren den Vorteil, dass es kein sogenanntes “Supervised-Learning-Verfahren” ist und deshalb keine Spielabläufe von echten Spielern braucht. Beim Reinforcement Learning wird die artifizielle Intelligenz solange gegen sich selber spielen (mittels der Simulation von Spielvarianten), bis sie das Spiel beherrscht. Als Eingabe für diese Lernverfahren dient lediglich der Zustand des Spiels zusammen mit der Belohnung (Sieg oder Niederlage) und nicht wie ein anderer Spieler auf diesen Zustand reagieren würde.

Dies ist ein wesentlicher Vorteil gegenüber anderen Lernmethoden (beispielsweise Supervised Learning/begleitetes Lernen), da einerseits das Sammeln von Spielerdaten sehr aufwändig ist und diese zum anderen bereits schon bei kleineren Anpassungen des Spiels erneut gemacht werden muss.