Körber-Preis 2019
14/24

»Die DeepMind-Forscher speicherten die bereits gesammelten Erfahrungen des Systems und nutzten diese, um es im Spiel gegen sich selbst weiter zu trainieren. Dies ähnelt Prozeduren, die im Hippocampus des Gehirns im Schlaf auftreten.«  

BERNHARD SCHÖLKOPF


Einen aufsehenerregenden Erfolg auf diesem Teilgebiet erzielte 2015 die Google-Firma DeepMind. (DeepMind ist ein 2010 in London gegründetes KI-Start-up, das Google im Januar 2014 aufgekauft hat.) Die DeepMind-Forscher hatten ein neuronales Netz kreiert, das eigenständig lernte, gegen 49 klassische, auf der Konsole Atari 2600 laufende Computer-spiele aus den 1980er Jahren zu spielen. Das Team nutzte dazu das sogenannte Deep-Learning-Verfahren, bei dem ein neuronales Netz mit besonders vielen Neuronen und Schichten verwendet wird. Als Input erhielt dieses Netz die farbigen Pixel des jeweiligen Videospiels sowie den angezeigten Spielstand. Als Output erzeugte das Netz Joystick-Bewegungen. Der Algorithmus war so programmiert, dass Joystick-Bewegungen, die den Spielstand erhöhten, ›belohnt‹ wurden. Anfangs bewegte das Netz den Joystick zufällig – und oft falsch. Nach und nach lernte es jedoch, die Bewegungen so zu optimieren, dass sich die Zahl der Gewinnpunkte erhöhte. Nach vielen tausend Spielen war das Netz derart gut, dass es vergleichbar gut spielte wie menschliche Meisterspieler. Die Regeln dafür hatte es sich selber beigebracht. 

Bernhard Schölkopf schrieb dazu auf Einladung des renommierten britischen Wissenschaftsmagazins ›Nature‹ den Fachartikel ›Learning to see and act‹. Besonders beeindruckte ihn, dass die DeepMind-Forscher das Netz nach der ersten Lernphase auch gegen sich selber spielen ließen: »Sie speicherten die bereits gesammelten Erfahrungen des Systems und nutzten diese, um es im Spiel gegen sich selbst weiter zu trainieren. Dies ähnelt Prozeduren, die im Hippocampus des Gehirns im Schlaf auftreten.« In der Tat hatten die Hirnforscher May-Britt und Edvard Moser, die den Körber-Preis 2014 und kurz darauf den Nobelpreis erhalten hatten, bei Experimenten mit Ratten, die tagsüber durch ein Labyrinth liefen, herausgefunden, dass die Nager nachts im Schlaf in ihrem Hippocampus die Erkundungsläufe des Tages noch einmal rekapitulierten. Diese geträumten Wiederholungen führen zu einer synaptischen Konsolidierung des Gelernten. In der KI-Forschung wird dieser Vorgang als ›reinforcement Learning‹ – verstärkendes Lernen – bezeichnet.