Die aufkommenden Arten von Sprachmodellen und warum sie wichtig sind

KI-Systeme, die Text verstehen und generieren, sogenannte Sprachmodelle, sind die heißeste Neuigkeit im Unternehmen. Ein kürzlich Umfrage fanden heraus, dass 60 % der Technologieführer angaben, dass ihre Budgets für KI-Sprachtechnologien im Jahr 2020 um mindestens 10 % gestiegen sind, während 33 % eine Steigerung um 30 % angaben.

Aber nicht alle Sprachmodelle sind gleich. Mehrere Typen erweisen sich als dominant, darunter große Allzweckmodelle wie GPT-3 von OpenAI und fein abgestimmte Modelle für bestimmte Aufgaben (denken Sie an die Beantwortung von IT-Desk-Fragen). Am Rande gibt es eine dritte Kategorie von Modellen – eines, das in der Regel stark komprimiert und auf wenige Funktionen beschränkt ist und speziell für den Betrieb auf Geräten und Workstations im Internet der Dinge entwickelt wurde.

Diese unterschiedlichen Ansätze haben große Unterschiede in Stärken, Mängeln und Anforderungen – hier ist, wie sie verglichen werden und wo Sie erwarten können, dass sie in den nächsten ein oder zwei Jahren eingesetzt werden.

Große Sprachmodelle

Große Sprachmodelle sind im Allgemeinen mehrere zehn Gigabyte groß und mit enormen Mengen an Textdaten trainiert, manchmal im Petabyte-Bereich. Sie gehören auch zu den größten Modellen in Bezug auf die Anzahl der Parameter, wobei sich ein „Parameter“ auf einen Wert bezieht, den das Modell beim Lernen unabhängig ändern kann. Parameter sind die Teile des Modells, die aus historischen Trainingsdaten gelernt wurden, und definieren im Wesentlichen die Fähigkeiten des Modells bei einem Problem, z. B. beim Generieren von Text.

„Große Modelle werden für Zero-Shot-Szenarien oder Wenig-Shot-Szenarien verwendet, in denen wenig Domain-[tailored] Trainingsdaten sind verfügbar und funktionieren normalerweise in Ordnung Etwas basierend auf ein paar Eingabeaufforderungen zu erzeugen “, sagte Fangzheng Xu, ein Doktorand an der Carnegie Mellon, der sich auf die Verarbeitung natürlicher Sprache spezialisiert hat, TechCrunch per E-Mail. Beim maschinellen Lernen bezieht sich “wenige Schüsse” auf die Praxis, ein Modell mit zu trainieren minimale Daten, während “Zero-Shot” impliziert, dass ein Modell lernen kann, Dinge zu erkennen, die es während des Trainings nicht explizit gesehen hat.

„Ein einziges großes Modell könnte potenziell viele nachgelagerte Aufgaben mit wenigen Trainingsdaten ermöglichen“, fuhr Xu fort.

Die Verwendung großer Sprachmodelle hat in den letzten Jahren dramatisch zugenommen, da Forscher neuere – und größere – Architekten entwickeln. Im Juni 2020 veröffentlichte das KI-Startup OpenAI GPT-3, ein Modell mit 175 Milliarden Parametern, das Text und sogar Code generieren kann, wenn eine kurze Eingabeaufforderung mit Anweisungen gegeben wird. Die offene Forschungsgruppe EleutherAI stellte daraufhin GPT-J zur Verfügung, ein kleineres (6 Milliarden Parameter), aber dennoch leistungsfähiges Sprachmodell, das zwischen Sprachen übersetzen, Blog-Posts schreiben, Code vervollständigen und mehr kann. Vor kurzem haben Microsoft und Nvidia ein Open-Source-Modell namens Megatron-Turing Natural Language Generation (MT-NLG) veröffentlicht, das zu den größten Modellen für Leseverständnis und Leseverständnis gehört natürlichsprachliche Inferenz bis heute bei 530 Milliarden Parametern entwickelt.

“Ein Grund, warum diese großen Sprachmodelle so bemerkenswert bleiben, ist, dass ein einziges Modell für Aufgaben verwendet werden kann”, darunter Fragenbeantwortung, Dokumentenzusammenfassung, Texterstellung, Satzvervollständigung, Übersetzung und mehr, Bernard Koch, ein Computational Social Scientist an der UCLA, teilte TechCrunch per E-Mail mit. “Ein zweiter Grund ist, dass ihre Leistung weiter skaliert, wenn Sie mehr Parameter zum Modell hinzufügen und mehr Daten hinzufügen … Der dritte Grund, warum sehr große Suchsprachenmodelle bemerkenswert sind, ist, dass sie in der Lage zu sein scheinen, anständige Vorhersagen zu treffen, wenn sie nur gegeben werden eine Handvoll beschrifteter Beispiele.”

Startups wie Cohere und AI21 Labs bieten über APIs auch ähnliche Modelle wie GPT-3 an. Andere Unternehmen, insbesondere Technologiegiganten wie Google, haben sich dafür entschieden, die großen Sprachmodelle, die sie entwickelt haben, intern und unter Verschluss zu halten. Zum Beispiel hat Google kürzlich ein 540-Milliarden-Parameter-Modell namens PaLM detailliert beschrieben – aber die Veröffentlichung abgelehnt –, von dem das Unternehmen behauptet, dass es bei Sprachaufgaben eine hochmoderne Leistung erzielt.

Große Sprachmodelle, Open Source oder nicht, alle haben hohe Entwicklungskosten gemeinsam. Ein 2020 lernen aus AI21-Labors bezifferte die Ausgaben für die Entwicklung eines textgenerierenden Modells mit nur 1,5 Milliarden Parametern auf bis zu 1,6 Millionen Dollar. Inferenz – das eigentliche Ausführen des trainierten Modells – ist eine weitere Belastung. Eine Quelle Schätzungen die Kosten für die Ausführung von GPT-3 auf einer einzelnen AWS-Instanz (p3dn.24xlarge) bei mindestens 87.000 $ pro Jahr.

„Große Modelle werden größer, leistungsstärker, vielseitiger, multimodaler und billiger zu trainieren. Nur Big Tech und extrem gut finanzierte Startups können dieses Spiel spielen“, sagt Vu Ha, technischer Direktor bei der AI2 Inkubator, teilte TechCrunch per E-Mail mit. „Große Modelle eignen sich hervorragend für das Prototyping, den Aufbau neuartiger Proof-of-Concepts und die Bewertung der technischen Machbarkeit. Sie sind aus Kostengründen selten die richtige Wahl für den Einsatz in der realen Welt. Eine Anwendung, die Tweets, Slack-Nachrichten, E-Mails und dergleichen verarbeitet eine regelmäßige Basis würde bei der Verwendung von GPT-3 unerschwinglich werden.

Große Sprachmodelle werden weiterhin der Standard für Cloud-Dienste und APIs sein, bei denen Vielseitigkeit und Unternehmenszugriff wichtiger sind als Latenz. Aber trotz neuer architektonisch Innovationenwerden diese Arten von Sprachmodellen für die Mehrheit der Organisationen unpraktisch bleiben, sei es im akademischen, öffentlichen oder privaten Sektor.

Fein abgestimmte Sprachmodelle

Feinabgestimmte Modelle sind im Allgemeinen kleiner als ihre großen Sprachmodell-Pendants. Beispiele hierfür sind Codex von OpenAI, ein direkter Nachkomme von GPT-3, der für Programmieraufgaben optimiert wurde. Obwohl Codex immer noch Milliarden von Parametern enthält, ist es sowohl kleiner als OpenAI als auch besser darin, Computercode-Strings zu generieren – und zu vervollständigen.

Eine Feinabstimmung kann beispielsweise die Fähigkeit von Modellen verbessern, eine Aufgabe auszuführen Fragen beantworten oder Generieren von Proteinsequenzen (wie im Fall von Salesforce ProGen). Aber es kann auch das Verständnis eines Models für bestimmte Themen stärken, wie z klinische Forschung.

„Fein abgestimmte … Modelle sind gut für Abschlussaufgaben mit vielen Trainingsdaten“, sagte Xu. „Beispiele sind maschinelle Übersetzung, Beantwortung von Fragen, Erkennung benannter Entitäten, Verknüpfung von Entitäten [and] Abrufinformationen.”

Die Vorteile hören hier nicht auf. Da fein abgestimmte Modelle von vorhandenen Sprachmodellen abgeleitet werden, benötigen fein abgestimmte Modelle nicht annähernd so viel Zeit – oder Rechenleistung – zum Trainieren oder Ausführen. (Größere Modelle wie die oben erwähnten können Wochen dauern oder viel mehr Rechenleistung erfordern, um in Tagen trainiert zu werden.) Sie erfordern auch nicht so viele Daten wie große Sprachmodelle. GPT-3 wurde mit 45 Terabyte Text trainiert, im Vergleich zu den 159 Gigabyte, mit denen Codex trainiert wurde.

Die Feinabstimmung wurde auf viele Domänen angewendet, aber ein besonders starkes aktuelles Beispiel ist InstructGPT von OpenAI. Unter Verwendung einer Technik namens „Reinforcement Learning from Human Feedback“ sammelte OpenAI einen Datensatz mit von Menschen geschriebenen Demonstrationen zu Eingaben, die an die OpenAI-API übermittelt wurden, und Eingaben, die von einem Team menschlicher Datenetikettierer geschrieben wurden. Sie nutzten diese Datensätze, um fein abgestimmte Ableger von GPT-3 zu erstellen, die – abgesehen davon, dass sie ein Hundertstel der Größe von GPT-3 sind – nachweislich weniger wahrscheinlich generiert werden problematischer Text während es eng an der Absicht eines Benutzers ausgerichtet ist.

In einer weiteren Demonstration der Kraft der Feinabstimmung veröffentlichten Google-Forscher im Februar a lernen behauptet, dass ein weitaus kleineres Modell als GPT-3 – fein abgestimmtes Sprachnetz (FLAN) – GPT-3 „mit großem Abstand“ bei einer Reihe anspruchsvoller Benchmarks übertrifft. FLAN mit 137 Milliarden Parametern übertraf GPT-3 bei 19 der 25 Aufgaben, bei denen die Forscher es getestet haben, und übertraf sogar die Leistung von GPT-3 bei 10 Aufgaben.

„Ich denke, dass die Feinabstimmung derzeit wahrscheinlich der am weitesten verbreitete Ansatz in der Branche ist, und ich sehe keine kurzfristige Änderung. Im Moment ermöglicht die Feinabstimmung bei kleineren Sprachmodellen den Benutzern mehr Kontrolle, um ihre spezialisierten Probleme zu lösen Probleme bei der Verwendung der eigenen domänenspezifischen Daten”, sagte Koch. “Anstatt zu verteilen [very large language] Modelle, die Benutzer selbst optimieren können, kommerzialisieren Unternehmen das Lernen mit wenigen Schüssen durch API-Eingabeaufforderungen, bei denen Sie dem Modell kurze Eingabeaufforderungen und Beispiele geben können.

Edge-Sprachmodelle

Edge-Modelle, die absichtlich klein sind, kann in Form von fein abgestimmten Modellen erfolgen – aber nicht immer. Manchmal werden sie von Grund auf an kleinen Datensätzen trainiert, um bestimmte Hardwarebeschränkungen zu erfüllen (z. B. Telefon- oder lokale Webserver-Hardware). In jedem Fall bieten Edge-Modelle – obwohl sie in mancher Hinsicht eingeschränkt sind – eine Vielzahl von Vorteilen, die große Sprachmodelle nicht erreichen können.

Die Kosten sind ein wichtiger Faktor. Mit einem Edge-Modell, das offline und auf dem Gerät ausgeführt wird, fallen keine Cloud-Nutzungsgebühren an. (Selbst fein abgestimmte Modelle sind oft zu groß, um auf lokalen Computern ausgeführt zu werden; MT-NLG kann über eine Minute dauern, um Text auf einem Desktop-Prozessor zu generieren.) Aufgaben wie das Analysieren von Millionen von Tweets können in der beliebten Cloud Tausende von Dollar an Gebühren verursachen -basierte Modelle.

Edge-Modelle bieten theoretisch auch mehr Privatsphäre als ihre internetgebundenen Pendants, da sie keine Daten in der Cloud übertragen oder analysieren müssen. Außerdem sind sie schneller – ein entscheidender Vorteil für Anwendungen wie Übersetzungen. Apps wie Google Translate verlassen sich auf Edge-Modelle, um Offline-Übersetzungen zu liefern.

„Edge-Computing wird wahrscheinlich in Umgebungen eingesetzt, in denen sofortiges Feedback erforderlich ist … Im Allgemeinen würde ich denken, dass dies Szenarien sind, in denen Menschen im Dialog mit KI oder Robotern oder so etwas wie selbstfahrenden Autos interagieren, die Verkehrszeichen lesen“, sagte Koch . . “Als hypothetisches Beispiel hat Nvidia eine Demo, bei der ein Edge-Chatbot ein Gespräch mit Kunden in einem Fast-Food-Restaurant führt. Ein letzter Anwendungsfall könnte die automatisierte Aufzeichnung von Notizen in elektronischen Krankenakten sein. Eine schnelle Gesprächsverarbeitung ist in diesen Situationen essenziell.“

Natürlich können kleine Modelle nicht alles leisten, was große Modelle können. Sie sind an die Hardware gebunden, die in Edge-Geräten zu finden ist, die von Single-Core-Prozessoren bis hin zu mit GPU ausgestatteten Systems-on-Chips reichen. Darüber hinaus deuten einige Forschungsergebnisse darauf hin, dass die Techniken, die zu ihrer Entwicklung verwendet werden, dies können verstärken unerwünschte Eigenschaftenwie algorithmische Voreingenommenheit.

“[There’s usually a] Kompromiss zwischen Stromverbrauch und Vorhersagekraft. Außerdem nimmt die Rechenleistung mobiler Geräte nicht wirklich im gleichen Tempo wie verteilte Hochleistungs-Computing-Cluster zu, sodass die Leistung möglicherweise immer mehr hinterherhinkt“, sagte Xu.

In die Zukunft schauen

Da sich große, fein abgestimmte und Edge-Sprachmodelle mit neuen Forschungsergebnissen weiterentwickeln, werden sie auf dem Weg zu einer breiteren Akzeptanz wahrscheinlich auf Hindernisse stoßen. Während zum Beispiel für die Feinabstimmung von Modellen weniger Daten erforderlich sind als für das Training eines Modells von Grund auf, erfordert die Feinabstimmung dennoch a Datensatz. Abhängig von der Domäne – z. B. Übersetzen aus einer wenig gesprochenen Sprache – sind die Daten möglicherweise nicht vorhanden.

“TDer Nachteil der Feinabstimmung besteht darin, dass immer noch eine beträchtliche Datenmenge erforderlich ist. Der Nachteil von Few-Shot-Learning ist, dass es nicht so gut funktioniert wie die Feinabstimmung, und dass Data Scientists und Machine-Learning-Ingenieure weniger Kontrolle über das Modell haben, weil sie nur über eine API damit interagieren“, so Koch weiter. “Und die Nachteile der Edge-KI bestehen darin, dass komplexe Modelle nicht auf kleine Geräte passen, sodass die Leistung erheblich schlechter ist als bei Modellen, die auf eine einzelne Desktop-GPU passen – geschweige denn Cloud-basierte große Sprachmodelle, die auf Zehntausende von GPUs verteilt sind.

Xu stellt fest, dass alle Sprachmodelle, unabhängig von ihrer Größe, in bestimmten wichtigen Aspekten noch zu wenig erforscht sind. Sie hofft, dass Bereiche wie Erklärbarkeit und Interpretierbarkeit – die darauf abzielen, zu verstehen, wie und warum ein Modell funktioniert, und diese Informationen den Benutzern zugänglich zu machen – in Zukunft mehr Aufmerksamkeit und Investitionen erhalten, insbesondere in „wichtigen“ Bereichen wie der Medizin.

„Provenienz ist wirklich ein wichtiger nächster Schritt, den diese Modelle haben sollten“, sagte Xu. „In Zukunft wird es immer effizientere Feinabstimmungstechniken geben … um die steigenden Kosten für die Feinabstimmung eines größeren Modells insgesamt zu bewältigen. Edge-Modelle werden weiterhin wichtig sein, denn je größer das Modell, desto mehr Forschung und Entwicklung sind erforderlich, um das Modell so zu destillieren oder zu komprimieren, dass es auf Edge-Geräte passt.

Leave a Reply

Your email address will not be published.