Tesla AI Day – Der Tesla Bot und Q&A

In diesem Teil des Tesla AI Day YouTube Videos (2:06:49 – 2:31:13) stellt Elon Musk die Pläne für den Tesla Bot „Optimus“ der Öffentlichkeit vor und beantwortet danach zusammen mit dem Tesla AI Team Fragen aus dem Publikum. Zum englischen Transkript und Teil 1 und Teil 2 der deutschen Übersetzung gelangen Sie durch Klicken auf die Links.

Elon Musk: (2:06:49) (eine Person in einem Tesla Bot Kostüm verlässt nach ihrem Auftritt die Bühne) Gut. Vielen Dank.

Im Gegensatz zu Dojo war das natürlich nicht real. Dojo ist echt, der Tesla Bot wird echt sein. Wenn man bedenkt, was wir gerade mit den Autos machen, ist Tesla wohl das größte Robotikunternehmen der Welt, denn unsere Autos sind sozusagen halbintelligente Roboter auf Rädern. Und mit dem vollständig selbstfahrenden Computer, im Wesentlichen der Inferenzmaschine im Auto, die natürlich ständig weiterentwickelt wird, und Dojo und all den neuronalen Netzen, die die Welt erkennen und verstehen, wie man durch die Welt navigiert, macht es irgendwie Sinn, dies auf eine humanoide Form zu übertragen.

Die Autos sind auch ziemlich gut in Sachen Sensoren, Batterien und Aktoren. Wir denken also, dass wir irgendwann im nächsten Jahr einen Prototyp vorstellen können, der im Grunde so aussieht. Und er soll natürlich freundlich sein und durch eine für Menschen gebaute Welt navigieren und gefährliche, sich wiederholende und langweilige Aufgaben eliminieren. Wir stellen ihn so ein, dass man auf mechanischer und physischer Ebene vor ihm weglaufen und ihn höchstwahrscheinlich überwältigen kann. Ich hoffe allerding, dass das nie nötig sein wird. Aber man weiß ja nie. Er erreicht fünf Meilen pro Stunde, man kann also leicht vor ihm weglaufen, und das wäre in Ordnung.

Er ist etwa 1,77 m groß und hat anstelle des Gesichts eine Art Bildschirm, auf dem nützliche Informationen zu sehen sind. Ansonsten ist er mit dem Autopilot-System ausgestattet, einschließlich acht Kameras und einem vollwertigen selbstfahrenden Computer, der all die gleichen Werkzeuge nutzt, die wir auch im Auto verwenden. Das Schwierige an einem nützlichen humanoiden Roboter ist, dass er nicht durch die Welt navigieren kann, ohne explizit trainiert zu werden. Ich meine, ohne explizite Anweisungen Zeile für Zeile.

Kann man mit ihm reden und ihn bitten, eine Schraube zu nehmen und sie mit einem Schlüssel an einem Auto zu befestigen? Das muss möglich sein. Er sollte auch in der Lage sein, Lebensmitteleinkäufe für jemanden zu erledigen. So etwas in der Art. Also, ja, ich denke, das kriegen wir hin. Ich glaube, das wird ziemlich einschneidend sein, wenn man betrachtet, was die Wirtschaft ist. Im Grunde genommen ist sie Arbeit. Was passiert also, wenn es keinen Mangel an Arbeitskräften gibt? Deshalb denke ich, dass es langfristig ein universelles Grundeinkommen geben muss. Allerdings noch nicht jetzt sofort, denn dieser Roboter funktioniert nicht. Wir brauchen noch eine Minute.

Aber ich glaube, dass körperliche Arbeit in der Zukunft im Wesentlichen eine Wahlmöglichkeit sein wird. Wenn man sie tun will, kann man sie tun, aber man muss sie nicht mehr tun. Das hat natürlich immense Auswirkungen auf die Wirtschaft. Denn wenn man bedenkt, dass die Wirtschaft auf ihrer grundlegenden Ebene aus Arbeit besteht – ich meine, Kapitalanlagen sind nur destillierte Arbeit – gibt es dann überhaupt eine Grenze für die Wirtschaft? Vielleicht nicht. Also, ja, schließen Sie sich unserem Team an und helfen Sie mit, dies aufzubauen.

(2:11:12) Wir werden nun alle wieder auf die Bühne bitten, und Sie können Fragen stellen, wenn Sie wollen.

(das KI-Team kommt zu Elon Musk auf die Bühne)

Wir beantworten gerne alle Fragen, die Sie zur Software oder Hardware haben, und wie es weitergeht. Und ja, schießen Sie los.

Die Beleuchtung blendet uns hier auf der Bühne wie bei einem Verhör; wir können nicht sehen… ah, da haben wir’s, toll. Alles klar, cool.

Publikum: (2:12:57) Zuerst einmal danke an alle Moderatoren. Es war einfach super cool, das alles zu sehen. Ich bin gespannt auf die Antworten, und ich habe eine Frage für jeden, der sie beantworten möchte. Inwieweit sind Sie daran interessiert, alles, was Sie tun, in Zukunft zu veröffentlichen oder als Open Source zur Verfügung zu stellen?

Elon Musk: Nun, ich meine, es ist im Grunde extrem teuer, das System zu entwickeln. Also muss es irgendwie bezahlt werden. Ich bin mir nicht sicher, wie man dafür bezahlen kann, wenn es vollständig als Open Source zur Verfügung gestellt wird, es sei denn, die Leute wollen umsonst arbeiten. Allerdings wäre es cool, wenn andere Autofirmen das System lizenzieren und in ihren Autos verwenden wollen. Dies soll nicht nur auf Tesla-Autos beschränkt sein.

Publikum: (2:14:05) Bezüglich des Dojo-Supercomputers: Haben Sie das Compiler-Problem der Skalierung auf so viele Knoten gelöst? Oder, wenn es gelöst ist, ist es nur auf Dojo anwendbar? Ich forsche nämlich an Deep-Learning-Beschleunigern, und die richtige Skalierbarkeit oder Verteilung, selbst auf einem Chip, ist aus der Perspektive des Forschungsprojekts extrem schwierig. Ich bin also nur neugierig.

KI-Teammitglied: Haben wir das Problem gelöst? Noch nicht. Sind wir zuversichtlich, dass wir das Problem lösen werden? Ja. Wir haben Netzwerke auf Prototyp-Hardware demonstriert. Jetzt haben wir Leistungsmodelle, die die Skalierung zeigen. Die Schwierigkeit ist, wie Sie sagten, wie wir die Lokalitäten beibehalten können. Wenn wir genug Modell- und Datenparallelität erreichen, um das meiste lokal zu halten, können wir einfach weiter skalieren. Wir müssen die Parameter unseres Arbeitssets in unseren SRAM einpassen, den wir haben, und es läuft.

Publikum: (2:15:11) Es gibt noch Möglichkeiten…?

KI-Teammitglied: Es gibt viele Möglichkeiten. Wenn wir eine weitere Skalierung für weitere Prozessorknoten erreichen, mehr lokalen Speicher haben, (…) auch Bandbreite, können wir mehr Dinge tun. Aber mit den Anwendungen, die Tesla jetzt hat, sehen wir einen klaren Weg.

Ganesh Venkataramanan: Und unsere Modularitätsgeschichte bedeutet, dass wir verschiedene Verhältnisse, verschiedene Aspekte daraus erstellen können. Ich meine, das ist etwas, das wir intern für unsere Anwendungen gewählt haben.

Publikum: (2:15:45) Ich habe nur gesagt, dass der Lokalitätanteil mit diesem Training eine so langsam wachsende Anwendung ist. Auch wenn Sie all diese Rechenleistung haben und über eine Verbindung mit hoher Bandbreite verfügen, können Sie diese Leistung nicht erreichen, weil Sie die Berechnungen auf einem begrenzten Speicher an verschiedenen Stellen durchführen. Deshalb hat es mich neugierig gemacht, als Sie sagten, das Problem sei gelöst, und ich habe die Gelegenheit beim Schopf gepackt. In Anbetracht dessen würde ich gerne mehr darüber erfahren, wie viel man davon als Open Source zur Verfügung stellen kann.

Elon Musk: Ich denke, Versuch macht klug. Wir sollten Dojo nächstes Jahr in Betrieb nehmen, und wir werden es natürlich für Videotraining verwenden. Ich meine, im Grunde geht es hier um… hauptsächlich wollen wir zunächst irrsinnig viele Videos so effizient wie möglich auswerten und anwenden und auch die Zeitspanne verkürzen. Wenn man versucht, eine Aufgabe zu trainieren, ist es grundsätzlich ein Fortschritt, wie viele Iterationen benötigt werden und wie groß der durchschnittliche Fortschritt zwischen den einzelnen Iterationen ist. Wenn man also die Zeit zwischen den Iterationen verkürzen kann, ist die Verbesserungsrate viel höher. Wenn es also manchmal ein paar Tage dauert, bis ein Modell trainiert ist, anstatt ein paar Stunden, ist das eine große Sache.

Aber der Härtetest hier, und was ich dem Dojo-Team gesagt habe, ist, dass es erfolgreich ist, wenn das Software-Team den GPU-Cluster ausschalten will. Aber wenn sie den GPU-Cluster weiter haben wollen, ist es nicht erfolgreich.

Publikum: (2:17:38) Hallo… hier drüben. Mir hat die Präsentation gefallen. Danke, dass Sie uns hierher geholt haben. Mir hat alles gefallen, vor allem der Simulationsteil der Präsentation. Es sah sehr realistisch aus. Gibt es irgendwelche Pläne, die Simulation auf andere Bereiche des Unternehmens auszuweiten?

Ian Glow: Hallo, ich bin Ian Glow. Ich leite das Autopilot-Simulationsteam. Auf dem Weg zum vollständig selbstfahrenden Auto müssen wir immer mehr des Fahrzeugs simulieren. Derzeit simulieren wir die Fahrzeugdynamik, wir brauchen das BMS, wir brauchen die MCU, wir brauchen jedes einzelne Teil des Fahrzeugs integriert. Das macht den Autopilot-Simulator auch für andere Bereiche als den Autopiloten sehr nützlich. Wir wollen also letztendlich eine universelle Simulationsplattform erschaffen.

Ich denke aber, dass wir zuvor noch einen Großteil des Optimus-Supports ausbauen werden, und für später haben wir einige grobe Ideen und überlegen, wie wir die Simulationsinfrastruktur und einige der coolen Dinge, die wir entwickelt haben, Leuten außerhalb des Unternehmens zur Verfügung stellen könnten.

Elon Musk: Optimus ist der Codename für den Tesla-Bot.

Ian Glow: Ups.

Elon Musk: Optimus Prime.

Publikum: (2:18:56) Vielen Dank für die tolle Präsentation und die Zusammenstellung all dieser coolen Dinge. Ja, eine Zeit lang habe ich gedacht, dass das Auto bereits ein Roboter ist. Warum also nicht auch ein humanoider Roboter. Und ich bin so froh, dass Sie heute erwähnt haben, dass Sie so etwas bauen werden. Vor allem denke ich, dass dies die Möglichkeit bietet, Multimodalität miteinander zu verbinden.

In dem Beispiel, das Sie gezeigt haben, gab es einen Hund und wir sahen einige Passanten. Die Sprache und die symbolische Verarbeitung können wirklich helfen, das zu visualisieren. Ich habe mich gefragt, ob ich etwas mehr über diese Art der Verknüpfung von Modalitäten, einschließlich Sprache und Sehen, hören könnte, denn ich habe zum Beispiel mit den Mini-GPTs gearbeitet, die Andrej herausgegeben hat. Und ja, ich habe nicht viel über andere Modalitäten gehört, die in das Auto oder zumindest in die Simulation einfließen. Können Sie uns dazu etwas sagen?

Elon Musk: Nun, beim Autofahren geht es genau genommen fast ausschließlich um neuronale Netze für das Sehen. Im Grunde fährt man mit einem biologischen neuronalen Netz für das Sehen. Und was wir hier machen, ist ein neuronales Netz für eine Siliziumkamera. Es gibt ein gewisses Maß an Audio – man will zum Beispiel Notfallfahrzeuge hören oder sich mit den Leuten im Auto unterhalten. Wenn jemand dem Auto etwas zuruft, muss das Auto das verstehen. Also all die Dinge, die notwendig sind, damit das Auto völlig autonom ist.

Publikum: (2:21:11) Hallo, ich danke Ihnen für all die großartige Arbeit, die Sie gezeigt haben. Meine Frage richtet sich an das Team, denn die gezeigten Daten scheinen vor allem aus den Vereinigten Staaten zu stammen, wo der FSD-Computer trainiert wird. Aber wenn er in anderen Ländern eingeführt wird, die ihre eigenen Straßensysteme und damit verbundenen Herausforderungen haben, wie wird er dann Ihrer Meinung nach skaliert werden? Ich gehe davon aus, dass die Lösung von Grund auf nicht sehr praktikabel ist. Wie lässt sich das also auf andere Länder übertragen?

Elon Musk: Nun, tatsächlich trainieren wir mit Daten aus circa 50 verschiedenen Ländern. Aber wir müssen ein Land auswählen… Da wir versuchen, das autonome Fahren voranzutreiben, müssen wir ein Land auswählen. Und da wir hier ansässig sind, haben wir uns für die USA entschieden. Es gab eine Menge Fragen wie, warum nicht einmal Kanada? Nun, weil die Straßen in Kanada ein wenig anders sind, anders genug. Wenn man also versucht, ein schwieriges Problem zu lösen, sollte man in diesem Moment keine zusätzliche Komplexität hinzufügen. Wir wollen das Problem erst nur für die USA lösen. Und dann werden wir es auf den Rest der Welt extrapolieren. Aber wir verwenden Videos aus der ganzen Welt.

Andrej Karpathy: Ich denke, vieles von dem, was wir bauen, ist sehr länderunabhängig. Im Grunde genommen kümmern sich alle Computer-Vision-Komponenten und so weiter nicht allzu sehr um länderspezifische Merkmale. In jedem Land gibt es Straßen, Bordsteine und Autos, und alles, was wir bauen, ist dafür ziemlich allgemein.

Elon Musk: Ja. Und die oberste Direktive lautet „kein Unfall“.

Andrej Karpathy: Richtig. Das gilt für jedes Land.

Elon Musk: Ja. Das ist die oberste Direktive. Bereits jetzt ist das Auto ziemlich gut darin, keinen Unfall zu bauen. Was auch immer es ist, man darf es nicht rammen. Selbst wenn es ein UFO ist, das eine Bruchlandung auf der Autobahn hingelegt hat, sollte man es nicht anfahren. Das Auto sollte es nicht erkennen müssen, um es nicht zu anzufahren. Das ist sehr wichtig.

Publikum: (2:23:20) Ich wollte fragen, wenn Sie den photometrischen Prozess, die Multiview-Geometrie, durchführen, wie groß ist der Fehler, den Sie sehen? Ist das etwa ein Millimeter, ein Zentimeter? Wenn es nicht vertraulich ist. Wie groß ist der Unterschied zwischen der synthetisch erstellten Geometrie und der tatsächlichen Geometrie?

Ashok Elluswamy: In der Regel liegt die Abweichung innerhalb von ein paar Zentimetern, drei oder vier Zentimetern. Das ist die Standardabweichung.

Publikum: Was waren die verschiedenen Modalitäten, um diesen Fehler zu beheben?

Ashok Elluswamy: Wir haben in erster Linie versucht, skalierbare Wege zur Kennzeichnung zu finden. In einigen Fällen verwenden wir andere Sensoren, um das Benchmarking zu unterstützen, aber wir verwenden hauptsächlich Kameras für dieses System.

Publikum: Okay, danke.

Elon Musk: Wir wollen das Auto im Zentimeterbereich genau positionieren können.

Ashok Elluswamy: Dashängt natürlich auch von der Entfernung ab. Dinge, die sich in der Nähe befinden, können sehr viel genauer positioniert sein als Dinge, die weiter entfernt sind. Diese sind auch weniger wichtig, weil das Auto in der Ferne keine Entscheidungen treffen muss. Und je näher es kommt, desto genauer wird es.

Elon Musk: Richtig. Sie haben viele Fragen.

Publikum: (2:24:41) Hallo, danke an alle. Meine Frage hat etwas mit KI und Produktion zu tun. Es ist schon eine Weile her, dass wir etwas über das Konzept des Alien-Dreadnoughts gehört haben. Ist der Humanoide, der hinter Ihnen steht, sozusagen aus der Zeit der Produktionshölle heraus entstanden und sagt aus, dass der Mensch in diesem Prozess unterbewertet ist?

Elon Musk: Nun, manchmal wird etwas, was ich sage, zu sehr auf die Spitze getrieben. Es gibt Teile des Tesla-Systems, die fast vollständig automatisiert sind. Und dann gibt es einige Teile, die fast vollständig manuell sind. Und wenn Sie durch das gesamte Produktionssystem gehen würden, würden Sie eine sehr große Bandbreite sehen, von, ja, wie ich sagte, vollautomatisch bis fast vollständig manuell. Aber das meiste ist bereits automatisiert. Und mit einigen Änderungen in der Konstruktionsarchitektur, wie der Umstellung auf große Aluminium-Druckgussteile, können wir das gesamte hintere Drittel des Fahrzeugs in einem Stück gießen. Und jetzt werden wir auch das vordere Drittel des Fahrzeugs in einem Stück gießen, so dass die Karosserielinie um etwa 60 bis 70 % kürzer wird.

Aber ja, der Roboter wird nicht speziell durch die Bedürfnisse der Fertigung veranlasst. Es ist nur so, dass wir ganz offensichtlich die Teile herstellen, die für einen nützlichen humanoiden Roboter benötigt werden. Also sollten wir ihn wahrscheinlich herstellen. Wenn wir es nicht tun, wird es jemand anderes tun, und deshalb sollten wir ihn herstellen – und sicherstellen, dass er sicher ist. Ich sollte sagen, dass auch die Serienfertigung extrem schwierig ist und unterschätzt wird. Wir sind ziemlich gut darin geworden. Es ist auch wichtig, dafür zu sorgen, dass der humanoide Roboter nicht super teuer ist.

Publikum: (2:26:49) Hallo. Vielen Dank für die Präsentation. Meine Frage bezieht sich auf die Skalierung von Dojo; insbesondere, wie Sie die Rechenknoten in Bezug auf die Wärme- und Energieversorgung skalieren. Denn es gibt nur eine bestimmte Menge an Wärme, die man abgeben kann, und nur eine bestimmte Menge an Energie, die man in ein Cluster-Rack einspeisen kann. Wie skaliert man das und wie skaliert man es in mehreren Rechenzentren?

Bill Chang: Hallo, ich bin Bill; ich bin einer der Dojo-Ingenieure. Vom thermischen Standpunkt und vom Standpunkt des Stromverbrauchs aus gesehen, haben wir es sehr modular aufgebaut. Das, was Sie auf der Rechnerkachel gesehen haben, wird die gesamte Kachel kühlen. Sobald wir sie anschließen, ist sie sowohl auf der Ober- als auch auf der Unterseite flüssigkeitsgekühlt. Mehr ist nicht nötig. Und wenn wir sie zusammenklicken, wird sie vollständig mit Strom versorgt und gekühlt, sobald wir sie an die Kühlung anschließen. Und das alles ist weniger als ein Kubikfuß groß.

Elon Musk: Tesla verfügt über ein großes Fachwissen im Bereich der Leistungselektronik und der Kühlung. Wir haben also das Fachwissen im Bereich der Leistungselektronik des Fahrzeugantriebsstrangs und die fortschrittliche Kühlung, die wir für die Leistungselektronik und das Fahrzeug entwickelt haben, auf den Supercomputer angewendet. Denn wie Sie schon sagten, ist es extrem wichtig, die Wärme abzuführen; es gibt nur eine sehr begrenzte Wärmekapazität. Es ist schon komisch, dass der Rechner mit weniger als einem Volt betrieben wird, was eine sehr niedrige Spannung mit einer Menge Ampere ist, also mit einer Menge Wärme. I Quadrat R ist das, was wirklich Probleme bereiten kann.

Publikum: (2:28:58) Hallo, meine Frage ist auch nur eine Frage der Skalierung. Es scheint eine natürliche Konsequenz der Verwendung von deutlich schnellerer Trainingshardware zu sein, dass man entweder Modelle über viel mehr Daten trainieren oder viel komplexere Modelle trainieren würde, was potenziell deutlich teurer bei Inferenzzeit in den Autos zu betreiben wäre. Ich habe mich gefragt, ob es einen Plan gibt, Dojo auch in selbstfahrenden Autos einzusetzen, und wenn ja, sehen Sie hier zusätzliche Herausforderungen voraus?

Ganesh Venkataramanan: Wie Sie sehen können, sind Andrejs Modelle nicht nur für Autos geeignet. Es gibt Auto-Labeling-Modelle und andere Modelle, die nicht für Autos geeignet sind, aber in den Auto-Stack einfließen. Dojo wird auch für all diese Modelle verwendet, nicht nur für den Teil des Trainings, der sich auf Autos bezieht.

Elon Musk: Die erste Anwendung von Dojo wird Videodaten für das Training benutzen, die dann in der Inferenzmaschine im Auto ausgeführt werden. Das ist meiner Meinung nach ein wichtiger Test, um zu sehen, ob es wirklich gut ist – ist es tatsächlich besser als GPU-Cluster oder nicht? Darüber hinaus ist es allerdings im Grunde ein allgemeiner Trainingscomputer für neuronale Netze. Aber es ist sehr stark als neuronales Netz optimiert. Wissen Sie, CPUs und GPUs sind nicht speziell für das Training neuronaler Netze konzipiert. Wir haben es geschafft, die GPUs besonders effizient für das Training neuronaler Netze zu machen, aber das war nie ihre Designabsicht.

Im Grunde laufen die GPUs beim Training neuronaler Netze im Emulationsmodus. Mit Dojo sagen wir: „Okay, lasst uns das ganze Ding einfach wie einen ASIC entwickelten Baustein entwerfen, lasst uns dieses Ding nur für einen Zweck bauen, und zwar für das Training neuronaler Netze.“ Und ganz allgemein ist jedes System, das für einen bestimmten Zweck entwickelt wurde, besser als eines, das für einen allgemeinen Zweck entwickelt wurde. (2:31:13)

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s