Synthesis AI sammelt 17 Millionen US-Dollar, um synthetische Daten für Computer Vision zu generieren – TechCrunch

Synthese KI, ein Startup, das eine Plattform entwickelt, die synthetische Daten zum Trainieren von KI-Systemen entwickelt, gab heute bekannt, dass es in einer von 468 Capital angeführten Finanzierungsrunde der Serie A mit Beteiligung von Sorenson Ventures und Strawberry Creek Ventures, Bee Partners, PJC und iRobot Ventures 17 Millionen US-Dollar aufgebracht hat , Boom Capital und Kubera Venture Capital. CEO und Mitbegründer Yashar Behzadi sagt, dass die Prozesse auf die Produktforschung und -entwicklung, den Ausbau des Unternehmensteams und die Ausweitung der Forschung ausgerichtet sein werden – insbesondere im Bereich gemischter realer und synthetischer Daten.

Synthetische Daten oder Daten, die künstlich erstellt und nicht aus der realen Welt erfasst wurden, werden in der Datenwissenschaft immer häufiger verwendet, da die Nachfrage nach KI-Systemen wächst. Die Vorteile liegen auf der Hand: Während das Sammeln von realen Daten zur Entwicklung eines KI-Systems kostspielig und arbeitsintensiv ist, kann eine theoretisch unendliche Menge an synthetischen Daten generiert werden, die beliebigen Kriterien entsprechen. Beispielsweise könnte ein Entwickler synthetische Bilder von Autos und anderen Fahrzeugen verwenden, um ein System zu entwickeln, das zwischen Marken und Modellen unterscheiden kann.

Kein Wunder, Gartner prognostiziert dass 60 % der Daten, die für die Entwicklung von KI- und Analyseprojekten verwendet werden, bis 2024 synthetisch sein werden Umfrage nannte die Verwendung synthetischer Daten „eine der vielversprechendsten allgemeinen Techniken auf dem Vormarsch in [AI].“

Aber synthetische Daten haben Einschränkungen. Obwohl es viele Eigenschaften echter Daten nachahmen kann, ist es keine exakte Kopie. Und die Qualität synthetischer Daten hängt von der Qualität des Algorithmus ab, der sie erstellt hat.

Behzadi behauptet natürlich, dass Synthesis bedeutende Schritte unternommen hat, um diese technischen Hürden zu überwinden. Als ehemaliger Wissenschaftler des IT-Dienstleistungsunternehmens SAIC und Schöpfer von PopSlate, einer Smartphone-Hülle mit integriertem E-Ink-Display, gründete Behzadi 2019 Synthesis in AI mit dem Ziel – in seinen Worten – „das Datenproblem in der KI zu lösen und verwandeln[ing] das Computer-Vision-Paradigma.

„Wenn Unternehmen neue Hardware oder neue Modelle entwickeln oder ihren geografischen und Kundenstamm erweitern, sind neue Trainingsdaten erforderlich, um sicherzustellen, dass die Modelle angemessen funktionieren“, sagte Behzadi per E-Mail gegenüber TechCrunch. „Unternehmen haben auch mit ethischen Problemen im Zusammenhang mit Modellverzerrungen und Verbraucherdatenschutz bei menschenzentrierten Produkten zu kämpfen. Es ist klar, dass ein neues Paradigma benötigt wird, um die nächste Generation von Computer Vision aufzubauen.“

In den meisten KI-Systemen werden Labels – die in Form von Bildunterschriften oder Anmerkungen vorliegen können – während des Entwicklungsprozesses verwendet, um dem System beizubringen, bestimmte Objekte zu erkennen. Normalerweise müssen Teams realen Bildern mühsam Labels hinzufügen, aber synthetische Tools wie Synthesis machen das überflüssig – theoretisch.

Die Cloud-basierte Plattform von Synthesis ermöglicht es Unternehmen, synthetische Bilddaten mit Labels zu generieren, indem sie eine Kombination aus KI-, prozeduraler Generierungs- und VFX-Rendering-Technologien verwenden. Für Kunden, die Algorithmen entwickeln, um beispielsweise Herausforderungen wie das Erkennen von Gesichtern und das Überwachen von Fahrern zu bewältigen, hat Synthesis etwa 100.000 „synthetische Menschen“ generiert, die unterschiedliche Geschlechter, Altersgruppen, BMIs, Hautfarben und Ethnien umfassen. Über die Plattform konnten Datenwissenschaftler die Posen der Avatare sowie ihre Haare, Gesichtsbehaarung, Kleidung (z. B. Masken und Brillen) und Umweltaspekte wie die Beleuchtung und sogar den „Objektivtyp“ der virtuellen Kamera anpassen.

„Führende Unternehmen im AR-, VR- und Metaverse-Bereich nutzen unsere vielfältigen digitalen Menschen und begleiten sie mit einer Vielzahl von 3D-Gesichts- und Körpermerkmalen, um realistischere und emotionalere Avatare zu erstellen“, sagte Behzadi. „[Meanwhile,] Unsere Kunden von Smartphones und Verbrauchergeräten verwenden synthetische Daten, um die Leistung verschiedener Kameramodule zu verstehen…. Mehrere unserer Kunden bauen ein Autofahrer- und Insassenerkennungssystem. Sie nutzten synthetische Daten von Tausenden von Personen in der Fahrzeugkabine in verschiedenen Situationen und Umgebungen, um die optimale Kameraplatzierung und Gesamtkonfiguration zu bestimmen, um die beste Leistung zu gewährleisten. ”

Einer der digitalen Avatare von Synthesis AI.

Einige der Bereiche, die Synthesis befürwortet, sind umstritten, es lohnt sich, darauf hinzuweisen – wie Gesichtserkennung und „Emotionserkennung“. Geschlechts- und Rassenvorurteile sind ein gut dokumentiertes Phänomen in der Gesichtsanalyse, das auf Mängel in den Datensätzen zurückzuführen ist, die zum Trainieren der Algorithmen verwendet werden. (Im Allgemeinen wird ein Algorithmus, der mit Bildern von Menschen mit homogenen Gesichtsstrukturen und -farben entwickelt wird, bei „Gesichtstypen“, denen er nicht ausgesetzt war, schlechter abschneiden.) Jüngste Forschung hebt die Folgen hervor und zeigt, dass einige Produktionssysteme die von Schwarzen ausgedrückten Emotionen als negativer einstufen. Computer-Vision-basierte Tools wie die von Zoom virtuelle Hintergründe und Twitters automatisches Zuschneiden von FotosAuch Menschen mit dunklerer Haut sind seit jeher benachteiligt.

Aber Behzadi ist der optimistischen Überzeugung, dass Synthesis diese Vorurteile reduzieren kann, indem es Beispieldaten – zB verschiedene Gesichter – generiert, die andernfalls nicht erfasst würden. Er behauptet auch, dass die synthetischen Daten von Synthesis Datenschutz- und Fair-Use-Vorteile bieten, hauptsächlich dadurch, dass sie nicht an persönlich identifizierbare Informationen gebunden sind (obwohl einige Forschung widerspricht) und ist nicht urheberrechtlich geschützt (im Gegensatz zu vielen Bildern im öffentlichen Web).

Neben der Schaffung leistungsfähigerer Modelle konzentriert sich Synthesis auf die ethische Entwicklung der KI durch Verringerung von Vorurteilen, Wahrung der Privatsphäre und Demokratisierung des Zugangs … [The platform] bietet perfekt gekennzeichnete Daten auf Abruf mit einer um Größenordnungen höheren Geschwindigkeit und reduzierten Kosten im Vergleich zu Human-in-the-Loop-Kennzeichnungsansätzen “, sagte Behzadi. „KI wird von hochwertigen gekennzeichneten Daten angetrieben. Da sich der KI-Raum von einer modellzentrierten zu einer datenzentrierten KI verschiebt, werden Daten zur wichtigsten treibenden Kraft im Wettbewerb.“

Tatsächlich haben synthetische Daten – je nachdem, wie sie angewendet werden – das Potenzial, viele der Entwicklungsherausforderungen anzugehen, mit denen Unternehmen konfrontiert sind, die versuchen, KI zu operationalisieren. Vor kurzemhaben MIT-Forscher einen Weg gefunden, Bilder anhand synthetischer Daten zu klassifizieren. Nvidia-Forscher haben erforscht eine Möglichkeit, synthetische Daten zu verwenden, die in virtuellen Umgebungen erstellt wurden, um Roboter zu trainieren, Objekte aufzunehmen. Und fast jedes große Unternehmen für autonome Fahrzeuge Verwendet Simulation Daten um die realen Daten zu ergänzen, die sie von Autos auf der Straße sammeln.

Aber auch hier sind nicht alle synthetischen Daten gleich. Datensätze müssen transformiert werden, um sie für die Systeme nutzbar zu machen, die synthetische Daten erstellen, und Annahmen, die während der Transformation getroffen werden, können zu unerwünschten Ergebnissen führen. Ein STAT Prüfbericht fanden heraus, dass Watson Health, die angeschlagene Life-Sciences-Abteilung von IBM, oft schlechte und unsichere Ratschläge zur Krebsbehandlung gab, weil die Modelle der Plattform mit fehlerhaften, synthetischen Patientenakten und nicht mit echten Daten trainiert wurden. Und das im Januar 2020 lernenzeigten Forscher der Arizona State University, dass ein KI-System, das mit einer Reihe von Bildern von Professoren trainiert wurde, hochrealistische synthetische Gesichter erstellen konnte – aber synthetische Gesichter, die meist klein und weiß waren, weil es die im ursprünglichen Datensatz enthaltenen Verzerrungen verstärkte.

Matthew Guzdial, Assistenzprofessor für Informatik an der University of Alberta, weist darauf hin, dass das eigene Whitepaper von Synthesis anerkennt, dass das Trainieren eines Modells mit synthetischen Daten allein dazu führt, dass es im Allgemeinen schlechtere Arbeit leistet.

„Ich sehe hier nichts wirklich Herausragendes [with Synthesis’ platform]. Es ist ziemlich normal, was synthetische Daten angeht. In einigen Fällen sind sie in der Lage, synthetische Daten in Kombination mit echten Daten zu verwenden, um ein Modell sinnvoll zu verallgemeinern “, sagte er TechCrunch per E-Mail. „[G]Im Allgemeinen halte ich meine Schüler davon ab, synthetische Daten zu verwenden, da ich finde, dass es zu einfach ist, Verzerrungen einzuführen, die Ihr Endmodell tatsächlich verschlechtern… Da synthetische Daten auf algorithmische Weise generiert werden (z. B. mit einer Funktion), ist das Einfachste für a Das zu lernende Modell besteht darin, nur das Verhalten dieser Funktion zu replizieren und nicht das tatsächliche Problem, das Sie annähern möchten. ”

Bildnachweis: Synthese KI

Robin Röhm, Mitbegründer der Datenanalyseplattform Apheris, argumentiert dass für jeden neuen synthetischen Datensatz Qualitätsprüfungen entwickelt werden sollten, um Missbrauch zu verhindern. Die Partei, die den Datensatz generiert und validiert, muss spezifische Kenntnisse darüber haben, wie die Daten angewendet werden, sagt er, oder läuft Gefahr, ein ungenaues – und möglicherweise schädliches – System zu erstellen.

Behzadi stimmt im Prinzip zu – aber mit Blick auf die Erweiterung der Anzahl von Anwendungen, die Synthesis unterstützt, und schlägt Konkurrenten wie zurück Meist KI, Gerendert.aiYDaten, Datengenund Synthetisch. Mit über 24 Millionen US-Dollar an Finanzierung und Fortune-50-Kunden in den Bereichen Verbraucher, Metaverse und Robotik plant Synthesis die Einführung neuer Produkte, die auf neue und bestehende Branchen abzielen, darunter Fotoverbesserung, Telekonferenzen, Smart Homes und Smart Assistants.

„Mit einer konkurrenzlosen Breite und Tiefe repräsentativer menschlicher Daten hat sich Synthesis AI als Anbieter der ersten Wahl für synthetische Daten auf Produktionsebene etabliert … Das Unternehmen hat über 10 Millionen gekennzeichnete Bilder geliefert, um die fortschrittlichsten Computer-Vision-Unternehmen der Welt zu unterstützen “, sagte Behzadi. „Synthesis AI hat 20 Mitarbeiter und wird bis Ende des Jahres auf 50 anwachsen.“

Leave a Reply

Your email address will not be published.