Die neue KI von DeepMind kann über 600 Aufgaben ausführen, vom Spielen bis zum Steuern von Robotern – TechCrunch

Die ultimative Errungenschaft für einige in der KI-Branche ist die Schaffung eines Systems mit künstlicher allgemeiner Intelligenz (AGI) oder der Fähigkeit, jede Aufgabe zu verstehen und zu lernen, die ein Mensch kann. Lange in den Bereich der Science-Fiction verbannt, wurde vorgeschlagen, dass AGI Systeme hervorbringen würde, die in der Lage sind, zu argumentieren, zu planen, zu lernen, Wissen darzustellen und in natürlicher Sprache zu kommunizieren.

Nicht jeder Experte ist davon überzeugt, dass AGI ein realistisches Ziel – oder überhaupt möglich – ist. Aber es könnte argumentiert werden, dass DeepMind, das von Alphabet unterstützte Forschungslabor, diese Woche mit der Veröffentlichung eines KI-Systems namens Katze.

Gato ist das, was DeepMind als „Allzweck“-System beschreibt, ein System, dem beigebracht werden kann, viele verschiedene Arten von Aufgaben auszuführen. Die Forscher von DeepMind haben Gato trainiert, 604 zu vollenden, um genau zu sein, einschließlich Bildunterschriften, Dialoge, das Stapeln von Blöcken mit einem echten Roboterarm und das Spielen von Atari-Spielen.

Jack Hessel, Forscher am Allen Institute for AI, weist darauf hin, dass ein einzelnes KI-System, das viele Aufgaben lösen kann, nicht neu ist. Zum Beispiel hat Google kürzlich damit begonnen, ein System in der Google-Suche namens Multitask Unified Model zu verwenden, oder MAMA, das Text, Bilder und Videos verarbeiten kann, um Aufgaben auszuführen, von der Suche nach interlingualen Variationen in der Schreibweise eines Wortes bis hin zur Verknüpfung einer Suchanfrage mit einem Bild. Aber was ist potentiell neuer sei hier, so Hessel, die Vielfältigkeit der angegangenen Aufgaben und der Trainingsmethode.

Gato-Architektur von DeepMind. Bildnachweis: DeepMind

„Wir haben zuvor Beweise dafür gesehen, dass einzelne Modelle überraschend unterschiedliche Eingabesätze verarbeiten können“, sagte Hessel per E-Mail gegenüber TechCrunch. „Aus meiner Sicht ist die Kernfrage beim Multitasking-Lernen, ob sich die Aufgaben ergänzen oder nicht. Sie könnten sich einen langweiligeren Fall vorstellen, wenn das Modell die Aufgaben vor dem Lösen implizit trennt, z. ‘ Für diese Nullhypothese könnte eine ähnliche Leistung erzielt werden, indem A und B getrennt trainiert würden, was nicht gerade berauschend ist. Wenn dagegen das gemeinsame Training von A und B bei einem (oder bei beiden!) zu Verbesserungen führt, dann wird es spannender.“

Wie alle KI-Systeme lernte Gato anhand von Beispielen, indem es Milliarden von Wörtern, Bilder aus realen und simulierten Umgebungen, Tastendrücke, Gelenkdrehmomente und mehr in Form von Token aufnahm. Diese Token dienten dazu, Daten so darzustellen, dass Gato es verstehen konnte, und ermöglichten es dem System, beispielsweise die Mechanismen von Breakout herauszuarbeiten oder herauszufinden, welche Wortkombination in einem Satz grammatikalisch sinnvoll sein könnte.

Gato übernimmt diese Aufgaben nicht unbedingt Gut. Beispielsweise antwortet das System beim Chatten mit einer Person oft mit einer oberflächlichen oder sachlich falschen Antwort (z. B. „Marseille“ als Antwort auf „Was ist die Hauptstadt von Frankreich?“). In Bildunterschriften verwechselt Gato Menschen. Und das System stapelt Blöcke mit einem echten Roboter nur in 60 % der Fälle korrekt.

Aber bei 450 der 604 oben genannten Aufgaben behauptet DeepMind, dass Gato mehr als die Hälfte der Zeit besser abschneidet als ein Experte.

„Wenn Sie der Meinung sind, dass wir einen General brauchen [systems]das sind dann viele Leute im Bereich KI und maschinelles Lernen [Gato is] eine große Sache “, sagte Matthew Guzdial, Assistenzprofessor für Informatik an der University of Alberta, TechCrunch per E-Mail. „Ich denke, die Leute, die sagen, es sei ein großer Schritt in Richtung AGI, übertreiben es etwas, da wir immer noch nicht bei der menschlichen Intelligenz sind und wahrscheinlich (meiner Meinung nach) nicht bald dorthin gelangen werden. Ich persönlich stehe eher im Lager der vielen kleinen Modelle [and systems] nützlicher, aber diese allgemeinen Modelle haben definitiv Vorteile in Bezug auf ihre Leistung bei Aufgaben außerhalb ihrer Trainingsdaten. ”

Seltsamerweise unterscheidet sich Gato aus architektonischer Sicht nicht dramatisch von vielen der heute in Produktion befindlichen KI-Systeme. Es teilt Eigenschaften mit OpenAIs GPT-3 in dem Sinne, dass es ein „Transformer“ ist. Seit 2017 ist der Transformer zur Architektur der Wahl für komplexe Denkaufgaben geworden und hat gezeigt, dass er in der Lage ist, Dokumente zusammenzufassen, Musik zu erzeugen, Objekte in Bildern zu klassifizieren und Proteinsequenzen zu analysieren.

DeepMind Gato

Die verschiedenen Aufgaben, die Gato zu erledigen gelernt hat. Bildnachweis: DeepMind

Vielleicht noch bemerkenswerter ist, dass Gato in Bezug auf die Parameteranzahl um Größenordnungen kleiner ist als Single-Task-Systeme, einschließlich GPT-3. Parameter sind die Teile des Systems, die aus Trainingsdaten gelernt wurden, und definieren im Wesentlichen die Fähigkeiten des Systems bei einem Problem, wie z. B. der Generierung von Text. Gato hat nur 1,2 Milliarden, während GPT-3 mehr als 170 Milliarden hat.

DeepMind-Forscher hielten Gato absichtlich klein, damit das System einen Roboterarm in Echtzeit steuern konnte. Aber sie gehen davon aus, dass Gato – wenn es vergrößert wird – jede „Aufgabe, jedes Verhalten und jede Verkörperung von Interesse“ bewältigen könnte.

Unter der Annahme, dass dies der Fall ist, müssten mehrere andere Hürden überwunden werden, um Gato in bestimmten Aufgaben gegenüber hochmodernen Single-Task-Systemen überlegen zu machen, wie z. B. Gatos Unfähigkeit, kontinuierlich zu lernen. Wie die meisten Transformer-basierten Systeme basiert Gatos Wissen über die Welt auf Trainingsdaten und bleibt statisch. Wenn Sie Gato eine datumskritische Frage stellen, wie zum Beispiel der aktuelle Präsident der USA, wird diese wahrscheinlich falsch beantwortet.

Der Transformer – und im weiteren Sinne Gato – hat eine weitere Einschränkung in seinem Kontextfenster oder der Menge an Informationen, an die sich das System im Kontext einer bestimmten Aufgabe „erinnern“ kann. Selbst die besten Transformer-basierten Sprachmodelle können keinen langen Aufsatz schreiben, geschweige denn ein Buch, ohne sich an wichtige Details zu erinnern und so den Überblick über die Handlung zu verlieren. Das Vergessen passiert bei jeder Aufgabe, ob beim Schreiben oder beim Steuern eines Roboters, weshalb einige Experten dies getan haben namens Es ist die „Achillesferse“ des maschinellen Lernens.

Aus diesen und anderen Gründen warnt Mike Cook, ein Mitglied des Forschungskollektivs Knives & Paintbrushes, davor, anzunehmen, dass Gato ein Weg zu einer wirklich universellen KI ist.

„Ich denke, das Ergebnis ist etwas anfällig für Fehlinterpretationen. Es klingt spannend, dass die KI all diese Aufgaben übernehmen kann, die ganz anders klingen, denn für uns klingt es so, als sei das Schreiben von Text etwas ganz anderes als das Steuern eines Roboters. Aber in Wirklichkeit unterscheidet sich das nicht allzu sehr von GPT-3, das den Unterschied zwischen gewöhnlichem englischen Text und Python-Code versteht “, sagte Cook per E-Mail zu TechCrunch. „Gato erhält spezifische Trainingsdaten zu diesen Aufgaben, genau wie jede andere KI dieser Art, und es lernt, wie Muster in den Daten miteinander in Beziehung stehen, einschließlich des Lernens, bestimmte Arten von Eingaben mit bestimmten Arten von Ausgaben zu verknüpfen. Das soll nicht heißen, dass das einfach ist, aber für den Außenstehenden hört sich das gewaltig an, als könne die KI auch eine Tasse Tee kochen oder locker noch zehn oder fünfzig andere Aufgaben lernen, und das kann sie nicht. Wir wissen, dass aktuelle Ansätze zur groß angelegten Modellierung mehrere Aufgaben gleichzeitig lernen können. Ich denke, es ist ein nettes Stück Arbeit, aber es scheint mir kein großes Sprungbrett auf dem Weg zu irgendetwas zu sein.

Leave a Reply

Your email address will not be published.