DeepMinds ‘Gato’ ist mittelmäßig, also warum haben sie es gebaut?

deepmind-gato-slash-image-closer-in.png

Das neuronale Netzwerk „Gato“ von DeepMind zeichnet sich durch zahlreiche Aufgaben aus, darunter die Steuerung von Roboterarmen, die Blöcke stapeln, das Spielen von Atari 2600-Spielen und das Versehen von Bildern mit Untertiteln.

DeepMind

Die Welt ist es gewohnt, Schlagzeilen über den neuesten Durchbruch von Deep-Learning-Formen der künstlichen Intelligenz zu sehen. Die jüngste Errungenschaft der DeepMind-Abteilung von Google könnte jedoch als “ein KI-Programm, das in vielen Dingen einen mittelmäßigen Job macht” zusammengefasst werden.

Gato, wie das Programm von DeepMind heißt, wurde diese Woche vorgestellt als sogenanntes multimodales Programm, das Videospiele spielen, chatten, Kompositionen schreiben, Bilder beschriften und einen Roboterarm steuern kann, der Blöcke stapelt. Es ist ein neuronales Netzwerk, das mit mehreren Arten von Daten arbeiten kann, um mehrere Arten von Aufgaben auszuführen.

„Mit einem einzigen Satz Gewichte kann Gato Dialoge führen, Bilder beschriften, Blöcke mit einem echten Roboterarm stapeln, Menschen beim Spielen von Atari-Spielen übertreffen, in simulierten 3D-Umgebungen navigieren, Anweisungen befolgen und vieles mehr“, schreibt Hauptautor Scott Reed und Kollegen in ihrem Artikel „A Generalist Agent“ auf dem Arxiv-Preprint-Server gepostet.

DeepMind-Mitbegründer Demis Hassabis feuerte das Team an, Ausruf in einem Tweet“Unser bisher umfassendster Agent !! Fantastische Arbeit des Teams!”

Ebenfalls: Ein neues Experiment: Kennt KI wirklich Katzen oder Hunde – oder so etwas?

Der einzige Haken ist, dass Gato bei einigen Aufgaben eigentlich nicht so gut ist.

Einerseits kann das Programm besser als ein dediziertes maschinelles Lernprogramm einen Sawyer-Roboterarm steuern, der Blöcke stapelt. Andererseits erzeugt es Bildunterschriften, die in vielen Fällen ziemlich schlecht sind. Seine Fähigkeit zum Standard-Chat-Dialog mit einem menschlichen Gesprächspartner ist ähnlich mittelmäßig und führt manchmal zu widersprüchlichen und unsinnigen Äußerungen.

Und das Spielen von Atari 2600-Videospielen fällt unter das der engagiertesten ML-Programme, die für den Wettbewerb im Benchmark entwickelt wurden Arcade-Lernumgebung.

Warum würdest du ein Programm machen, das einige Dinge ziemlich gut macht und ein paar andere Dinge nicht so gut? Präzedenzfall und Erwartung, so die Autoren.

Es gibt einen Präzedenzfall dafür, dass allgemeinere Arten von Programmen zum Stand der Technik in der KI werden, und es besteht die Erwartung, dass zunehmende Mengen an Rechenleistung in Zukunft die Mängel ausgleichen werden.

Allgemeinheit kann dazu neigen, in der KI zu triumphieren. Wie die Autoren unter Berufung auf den KI-Forscher Richard Sutton anmerken, „haben generische Modelle, die besser in der Lage sind, Berechnungen zu nutzen, in der Vergangenheit auch dazu tendiert, spezialisiertere domänenspezifische Ansätze zu überholen.“

Wie Sutton schrieb in einem eigenen Blogbeitrag„Die wichtigste Lektion, die man aus 70 Jahren KI-Forschung lesen kann, ist, dass allgemeine Methoden, die die Berechnung nutzen, letztendlich die effektivsten sind, und zwar mit großem Abstand.“

In einer formellen These schreiben Reed und sein Team, dass „wir hier die Hypothese testen, dass es möglich ist, einen Agenten zu trainieren, der im Allgemeinen für eine große Anzahl von Aufgaben geeignet ist; und dass dieser Generalagent mit wenig zusätzlichen Daten angepasst werden kann, um erfolgreich zu sein noch größere Anzahl von Aufgaben.“

Ebenfalls: Metas KI-Koryphäe LeCun erforscht die Energiegrenze von Deep Learning

Das Modell ist in diesem Fall tatsächlich sehr allgemein. Es ist eine Version des Transformers, der vorherrschenden Art von aufmerksamkeitsbasiertem Modell, das zur Grundlage zahlreicher Programme geworden ist, darunter GPT-3. Ein Transformer modelliert die Wahrscheinlichkeit eines Elements angesichts der Elemente, die es umgeben, wie z. B. Wörter in einem Satz.

Im Fall von Gato sind die DeepMind-Wissenschaftler in der Lage, dieselbe bedingte Wahrscheinlichkeitssuche auf zahlreiche Datentypen anzuwenden.

Wie Reed und Kollegen die Aufgabe des Gato-Trainings beschreiben,

Während der Trainingsphase von Gato werden Daten aus verschiedenen Aufgaben und Modalitäten in eine flache Folge von Token serialisiert, gestapelt und von einem neuronalen Transformatornetz ähnlich einem großen Sprachmodell verarbeitet. Der Verlust wird maskiert, sodass Gato nur Aktions- und Textziele vorhersagt.

Mit anderen Worten behandelt Gato Token nicht unterschiedlich, egal ob es sich um Wörter in einem Chat oder um Bewegungsvektoren in einer Block-Stacking-Übung handelt. Es ist alles das Gleiche.

deepmind-wie-gato-ausgebildet wird.pngdeepmind-wie-gato-ausgebildet wird.png

Gato-Trainingsszenario.

Reedet al. 2022

Vergraben in der Hypothese von Reed und dem Team ist eine logische Folge, nämlich dass letztendlich immer mehr Rechenleistung gewinnen wird. Im Moment ist Gato durch die Reaktionszeit eines Sawyer-Roboterarms begrenzt, der das Blockstapeln durchführt. Mit 1,18 Milliarden Netzwerkparametern ist Gato deutlich kleiner als sehr große KI-Modelle wie GPT-3. Da Deep-Learning-Modelle immer größer werden, führt die Durchführung von Inferenzen zu einer Latenz, die in der nicht deterministischen Welt eines realen Roboters versagen kann.

Reed und seine Kollegen erwarten jedoch, dass die Grenze überschritten wird, wenn die KI-Hardware schneller verarbeitet wird.

„Wir konzentrieren unser Training auf den Betriebspunkt der Modellskala, der eine Echtzeitsteuerung von realen Robotern ermöglicht, derzeit etwa 1,2 Milliarden Parameter im Gato-Fall“, schrieben sie. „Wenn sich Hardware- und Modellarchitekten verbessern, wird dieser Betriebspunkt natürlich die realisierbare Modellgröße erhöhen und generalistische Modelle auf der Skalierungsgesetzkurve weiter nach oben schieben.“

Daher ist Gato wirklich ein Modell dafür, wie der Rechenumfang weiterhin der Hauptvektor der Entwicklung des maschinellen Lernens sein wird, indem allgemeine Modelle immer größer werden. Größer ist besser, mit anderen Worten.

deepmind-wird-besser-mit-scale.pngdeepmind-wird-besser-mit-scale.png

Gato wird besser, wenn die Größe des neuronalen Netzwerks in Parametern zunimmt.

Reedet al. 2022

Und die Autoren haben einige Beweise dafür. Gato scheint besser zu werden, wenn es größer wird. Sie vergleichen durchschnittliche Punktzahlen über alle Benchmark-Aufgaben für drei Modellgrößen nach Parametern, 79 Millionen, 364 Millionen, und das Hauptmodell, 1,18 Milliarden. „Wir können sehen, dass es bei einer äquivalenten Token-Anzahl eine signifikante Leistungsverbesserung mit zunehmender Skalierung gibt“, schreiben die Autoren.

Eine interessante Zukunftsfrage ist, ob ein Programm, das ein Generalist ist, gefährlicher ist als andere Arten von KI-Programmen. Die Autoren verbringen viel Zeit in der Arbeit damit, die Tatsache zu diskutieren, dass es potenzielle Gefahren gibt, die noch nicht gut verstanden sind.

Die Idee eines Programms, das mehrere Aufgaben übernimmt, suggeriert dem Laien eine Art menschliche Anpassungsfähigkeit, aber das kann eine gefährliche Fehleinschätzung sein. „Zum Beispiel könnte die physische Verkörperung dazu führen, dass Benutzer den Agenten vermenschlichen, was im Falle eines fehlerhaften Systems zu falschem Vertrauen führt oder von schlechten Akteuren ausgenutzt werden kann“, schreiben Reed und sein Team.

„Während der domänenübergreifende Wissenstransfer oft ein Ziel der ML-Forschung ist, könnte er außerdem zu unerwarteten und unerwünschten Ergebnissen führen, wenn bestimmte Verhaltensweisen (z. B. Kampf in Arcade-Spielen) in den falschen Kontext übertragen werden.“

Daher schreiben sie: „Die Ethik- und Sicherheitserwägungen des Wissenstransfers erfordern möglicherweise erhebliche neue Forschungen, wenn sich generalistische Systeme weiterentwickeln.“

(Als interessante Randbemerkung verwendet das Gato-Papier ein Schema zur Beschreibung des Risikos, das von der ehemaligen Google-KI-Forscherin Margaret Michell und Kollegen entwickelt wurde und Modellkarten genannt wird. Modellkarten geben eine kurze Zusammenfassung dessen, was ein KI-Programm ist, was es tut und welche Faktoren beeinflussen, wie es funktioniert. Michell schrieb das letztes Jahr Sie wurde aus Google vertrieben für die Unterstützung ihres ehemaligen Kollegen Timnit Gebru, dessen ethische Bedenken in Bezug auf KI mit Googles KI-Führung in Konflikt gerieten.)

Gato ist keineswegs einzigartig in seiner verallgemeinernden Tendenz. Es ist Teil des breiten Trends zur Verallgemeinerung und zu größeren Modellen, die jede Menge Pferdestärken verbrauchen. Die Welt bekam zum ersten Mal einen Vorgeschmack auf Googles Neigung in diese Richtung letzten Sommermit dem neuronalen Netzwerk „Perceiver“ von Google, das Text-Transformer-Aufgaben mit Bildern, Ton und räumlichen LiDAR-Koordinaten kombiniert.

Ebenfalls: Googles Supermodel: DeepMind Perceiver ist ein Schritt auf dem Weg zu einer KI-Maschine, die alles und jedes verarbeiten kann

Zu seinen Kollegen gehört PaLM, das Pathways Language Model, Dieses Jahr von Google-Wissenschaftlern eingeführtein 540-Milliarden-Parameter-Modell, das eine neue Technologie zur Koordinierung Tausender Chips nutzt, bekannt als Pfade, ebenfalls bei Google erfunden. Ein neuronales Netz Januar veröffentlicht von Meta, genannt “data2vec”, verwendet Transformers für Bilddaten, Sprach-Audio-Wellenformen und Textsprachdarstellungen in einem.

Was neu an Gato ist, so scheint es, ist die Absicht, KI, die für nicht robotische Aufgaben verwendet wird, in den Bereich der Robotik zu bringen.

Die Schöpfer von Gato, die die Errungenschaften von Pathways und anderen generalistischen Ansätzen zur Kenntnis nehmen, sehen die ultimative Errungenschaft in der KI, die in der realen Welt mit jeder Art von Aufgaben eingesetzt werden kann.

„Zukünftige Arbeiten sollten überlegen, wie diese Textfähigkeiten zu einem vollständig generalistischen Agenten vereinheitlicht werden können, der auch in Echtzeit in der realen Welt, in verschiedenen Umgebungen und Ausführungsformen agieren kann.“

Sie könnten Gato also als einen wichtigen Schritt auf dem Weg zur Lösung betrachten Das schwierigste Problem der KI, die Robotik.

Leave a Reply

Your email address will not be published.