In der dritten halben Stunde (1:02:38 – 1:33:51) des am 28.12.2021 von Lex Fridman auf YouTube veröffentlichten Podcast #252 mit Elon Musk geht es hauptsächlich um die Entwicklung des FSD und in diesem Zusammenhang die Funktionsweise des menschlichen Sehens beziehungsweise welche Rolle unser Gehirn dabei übernimmt und wie Tesla versucht, dies durch neuronale Netze und KI auf das Auto zu übertragen. Zu Teil 2 des Interviews und dem englischen Transkript dieser Übersetzung gelangen Sie durch Klicken auf die Links.

Lex Fridman: (1:02:38) Autopilot. Teslas Autopilot hat in den letzten sechs Jahren eine unglaubliche Reise hinter sich, oder vielleicht sogar noch länger in Deinem Kopf, in den Köpfen vieler Beteiligter.
Elon Musk: Ich glaube, wegen des Autopiloten sind wir uns zum ersten Mal begegnet.
Lex Fridman: Es war für mich unglaublich, diese ganze Reise zu beobachten – zum Teil, da ich am MIT war und die Schwierigkeit der Computer Vision kannte, und ich durch viele Kollegen und Freunde, die mit der DARPA (Defense Advanced Research Projects Agency) zu tun hatten, von den Herausforderungen wusste. Als ich zum ersten Mal einen Tesla mit dem ersten Mobileye-System fuhr, war ich daher natürlich skeptisch. Ja, ich dachte, das gibt’s doch nicht. Als ich das erste Mal einstieg, dachte ich, dass es unmöglich ist, dass dieses Auto in der Spur bleibt und ein angenehmes Fahrgefühl vermittelt. Meine Intuition war also, dass das Problem des Spurhaltens viel zu schwierig zu lösen sei.
Elon Musk: Oh, danke schön. Das ist relativ einfach.
Lex Fridman: Aber es auf eine Art und Weise zu lösen, die tatsächlich eine angenehme Erfahrung über Hunderte von Tausenden oder Millionen von Meilen schafft, im Gegensatz zu einer Sache… wir sprachen gerade über den vorherigen Prototypen. Ich wurde eines Besseren belehrt.
Elon Musk: Wir mussten eine Menge Code um das Mobileye-Ding entwickeln; es hat nicht von alleine funktioniert.
Lex Fridman: (1:04:03) Ich meine, das ist ein Teil der Geschichte, wie Du die Dinge manchmal angehst. Manchmal machst Du Dinge von Grund auf neu. Manchmal schaust Du Dir erst einmal an, was es da draußen gibt, und dann entscheidest Du Dich, es von Grund auf neu zu machen. Eine der kühnsten Entscheidungen, die ich je gesehen habe, war, sowohl bei der Hardware als auch bei der Software von Grund auf neu anzufangen. Ich war wiederum skeptisch, ob das klappen würde, weil es ein so schwieriges Problem ist. Und so war es eine unglaubliche Reise, was ich jetzt mit allem sehe, der Hardware, den Computern, den Sensoren. Was mich vielleicht am meisten interessiert und begeistert, ist das, was Andrej Karpathy mit der Auswahl der Datensätze, dem gesamten Datenverarbeitungsprozess, den neuronalen Netzwerkarchitekturen und der Art und Weise, wie diese in der realen Welt getestet und validiert werden, anstellt – all die verschiedenen Arten zu Testen im Gegensatz zum Bild-Netz-Modell der Computer-Vision, was in der akademischen Welt der angewandten künstlichen Intelligenz entspricht.
Elon Musk: Andrej ist großartig und spielt natürlich eine wichtige Rolle. Aber wir haben eine Menge wirklich talentierter Leute, die die Dinge vorantreiben. Und Ashok ist eigentlich der Leiter der Autopilot-Entwicklung. Andrej ist der Leiter der KI.
Lex Fridman: Ich bin mir bewusst, dass es ein unglaubliches Team gibt, bei dem eine Menge passiert.
Elon Musk: Ja, die Leute schenken mir zu viel Anerkennung, und sie schenken Andrej zu viel Anerkennung.
Lex Fridman: (1:05:28) Und die Leute sollten sich darüber im Klaren sein, wie viel vor sich geht, was nicht sichtbar…
Elon Musk: Ja, es sind einfach eine Menge wirklich talentierter Leute. Das KI-Team von Tesla Autopilot ist extrem talentiert. Es sind einige der intelligentesten Leute der Welt. Also ja, wir kriegen es hin.
Lex Fridman: Welche Erkenntnisse hast Du in diesen fünf, sechs Jahren Autopilot über das Problem des autonomen Fahrens gewonnen? Bist Du also mit einer Art von auf Grundprinzipien basierenden Intuition an die Sache herangegangen, aber niemand weiß, wie schwierig das Problem ist…
Elon Musk: Ich bin davon ausgegangen, dass ein autonom fahrendes Auto zu erschaffen schwierig sein würde, aber es war noch schwieriger als ich dachte. Ich ging nicht davon aus, dass dies einfach sei, ich dachte durchaus, es würde sehr schwer sein, aber es war tatsächlich viel schwieriger als ich annahm. Um das Problem des autonomen Fahrens zu lösen, muss man im Grunde das nachahmen, was der Mensch beim Fahren tut, nämlich mit optischen Sensoren, Augen, und biologischen neuronalen Netzen fahren.
Darauf ist das gesamte Straßensystem ausgelegt: auf passive Optik und neuronale Netze, beides in biologischer Form. Damit das autonome Fahren funktioniert, müssen wir das in digitaler Form nachbilden. Das bedeutet Kameras mit fortschrittlichen neuronalen Netzen in Siliziumform. Das wird FSD ermöglichen. Das ist der einzige Weg. Ich glaube nicht, dass es einen anderen Weg gibt.
Lex Fridman: (1:07:10) Aber die Frage ist, welche Aspekte der menschlichen Natur man in die Maschine kodieren muss, richtig? Man muss also das Wahrnehmungsproblem lösen – und dann stellt man erst fest, was das Wahrnehmungsproblem beim Fahren ist. All die Dinge, die man sehen können muss; worauf schauen wir überhaupt, wenn wir fahren? Ich habe erst kürzlich gehört, wie Andrej am MIT über Autotüren gesprochen hat. Ich glaube, es war der beste Vortrag aller Zeiten über Autotüren – also, die feinen Details von Autotüren, z. B. was ist überhaupt eine offene Autotür.
Die Ontologie davon ist ein Wahrnehmungsproblem. Wir Menschen lösen dieses Wahrnehmungsproblem, und Tesla muss dieses Problem lösen. Und dann sind da noch die Steuerung und die Planung in Verbindung mit der Wahrnehmung. Man muss herausfinden, was beim Fahren eine Rolle spielt, vor allem in all den verschiedenen Grenzfällen. Ich meine, vielleicht kannst Du dazu etwas sagen, wie viel spieltheoretisches Zeug an einem Stoppschild mit vier Richtungen beteiligt sein muss? Wenn wir Menschen Auto fahren, wirkt sich unser Handeln auf die Welt aus, es verändert das Verhalten anderer. Beim autonomen Fahren reagiert man in der Regel nur auf die Situation, anstatt sich wirklich in der Situation durchzusetzen.
Elon Musk: Ich denke, diese Art von Steuerungslogik-Rätseln sind nicht der schwierige Teil.
Lex Fridman: (1:08:45) Was ist das Schwierige an diesem ganzen schönen, komplexen Problem?
Elon Musk: Das ist eine Menge verdammter Software, eine Menge intelligenter Codezeilen. Um einen genauen Vektorraum zu schaffen… Man kommt also aus dem Bildraum, der wie ein Fluss von Photonen ist, die zu den Kameras gehen. Und dann, da man diesen massiven Bitstrom im Bildraum hat, muss man diesen massiven Bitstrom effektiv komprimieren, (…) und diesen Bitstrom in den Vektorraum umwandeln.
Mit Vektorraum meine ich, dass es Autos, Menschen, Fahrspuren, Kurven, Ampeln und so weiter gibt. Sobald man einen genauen Vektorraum hat, ist das Steuerungsproblem ähnlich wie bei einem Videospiel, wie Grand Theft Auto oder Cyberpunk. Wenn man einen genauen Vektorraum hat. Das Steuerungsproblem ist… Ich würde nicht sagen, dass es trivial ist. Es ist nicht trivial. Aber es ist auch keine unüberwindbare Hürde. Aber einen genauen Vektorraum dazustellen ist sehr schwierig.
Lex Fridman: Ja, ich glaube, wir Menschen zollen der unglaublichen Leistung des menschlichen Wahrnehmungssystems – der Abbildung der rohen Photonen auf die Vektorraumdarstellung in unserem Kopf – nicht genug Respekt.
Elon Musk: Unser Gehirn verarbeitet eine unglaubliche Menge an Informationen und liefert uns ein Bild, das ein sehr bereinigtes Bild ist. Wenn wir uns hier umschauen, sehen wir Farbe in den Augenwinkeln, aber eigentlich haben unsere Augen nur sehr wenige Zapfenrezeptoren im peripheren Sehen. Unsere Augen erzeugen Farbe in der Peripherie des Auges. Wir bemerken es nicht, aber unsere Augen erzeugen tatsächlich Farbe. Außerdem haben unsere Augen diese Blutgefäße und alle möglichen störende Dinge, und es gibt einen blinden Fleck. Aber siehst Du Deinen blinden Fleck? Nein, Dein Gehirn malt den blinden Fleck aus. Man kann diese Dinge online machen, wo es heißt: „Schauen Sie hierher, und schauen Sie auf diesen Punkt, und dann schauen Sie auf diesen Punkt.“ Und wenn es im blinden Fleck liegt, füllt das Gehirn die fehlenden Teile einfach aus.
Lex Fridman: (1:11:33) Das periphere Sehen ist so cool. Es lässt einen all die Illusionen erkennen, für die Wissenschaft des Sehens… es lässt einen erkennen, wie unglaublich das Gehirn ist.
Elon Musk: Das Gehirn führt eine unglaubliche Nachbearbeitung der Sehsignale für die Augen durch. Das ist wahnsinnig. Und selbst wenn man all diese Sehsignale erhält, versucht das Gehirn ständig, so viel wie möglich zu vergessen. Der vielleicht schwächste Teil des Gehirns ist das Gedächtnis. Da das Gedächtnis für unser Gehirn so wertvoll und so begrenzt ist, versucht es, so viel wie möglich zu vergessen und die Dinge, die wir sehen, in die kleinstmöglichen Informationsmengen zu destillieren. Das Gehirn versucht also, nicht nur einen Vektorraum zu erreichen, sondern einen Vektorraum, der den kleinstmöglichen Vektorraum mit nur relevanten Objekten darstellt.
Man kann gewissermaßen in sein Gehirn hineinschauen, oder zumindest kann ich das, wenn man die Straße entlangfährt und versuchen, darüber nachzudenken, was das Gehirn eigentlich bewusst tut. Weil man keine Kameras hat, keine Augen am Hinterkopf oder an der Seite… man hat im Grunde zwei Kameras auf einer langsamen Kardanaufhängung. Und die Sehkraft ist nicht so toll, okay? Und die Leute sind ständig abgelenkt und denken über Dinge nach, schreiben SMS und tun alle möglichen Dinge, die sie im Auto nicht tun sollten, wechseln den Radiosender, streiten sich. Wann hat man das letzte Mal nach rechts und links und nach hinten oder sogar diagonal nach vorne geschaut, um den Vektorraum zu aktualisieren? Man schaut sich um, und der Verstand versucht, die relevanten Vektoren zu destillieren, d. h. im Grunde Objekte mit einer Position und einer Bewegung, und diese dann auf die geringste Informationsmenge zu reduzieren, die für das Fahren notwendig ist.
Lex Fridman: (1:13:49) Man scheint in der Lage zu sein, sie noch weiter zu komprimieren, z. B. zu Konzepten. Der menschliche Verstand scheint manchmal über den Vektorraum hinauszugehen und eine Art Begriffsraum zu schaffen, in dem man eine Sache sieht. Es wird nicht mehr irgendwie räumlich dargestellt, sondern es ist sozusagen ein Konzept, dessen man sich bewusst sein sollte. Wenn dies zum Beispiel eine Schulzone ist, wird man sich das als Konzept merken. Das ist eine seltsame Vorstellung, aber vielleicht muss man diese Dinge beim Autofahren nicht vollständig darstellen, oder man versteht sie indirekt.
Elon Musk: Nun, man muss einen Vektorraum festlegen und dann tatsächlich Vorhersagen für diese Vektorräume treffen. Wenn man zum Beispiel an einem Bus vorbeifährt und sieht, dass dort Menschen sind… bevor man am Bus vorbeigefahren ist, hat man gesehen, dass Menschen die Straße überqueren… oder stell Dir vor, dass ein großer LKW oder etwas anderes die Sicht versperrt. Aber bevor Du auf den Lkw zugefahren bist, hast Du gesehen, dass einige Kinder vor dem Lkw die Straße überqueren wollten. Jetzt kannst Du die Kinder nicht mehr sehen, aber Du wüsstest, dass diese Kinder wahrscheinlich am Lkw vorbeigehen und die Straße überqueren werden, auch wenn Du sie nicht sehen kannst. Du musst also ein Gedächtnis haben… Du musst Dich daran erinnern, dass dort Kinder waren, und Du musst eine Vorhersage darüber haben, wie ihre Position zum Zeitpunkt der Relevanz sein wird.
Lex Fridman: (1:15:23) Das ist ein wirklich schwieriges Problem. Mit Verdeckungen in der Computer Vision, wenn man ein Objekt nicht mehr sehen kann, selbst wenn es nur hinter einem Baum verschwindet und wieder auftaucht – das ist ein wirklich, wirklich… Ich meine, zumindest in der akademischen Literatur ist „Tracking durch Okklusion“ (Nachverfolgung durch Verdeckungen hindurch) sehr schwierig.
Elon Musk: Ja, aber wir machen das.
Lex Fridman: Ich verstehe das. Also, einiges davon…
Elon Musk: Das ist wie Objektpermanenz. Das Gleiche passiert beim Menschen mit den neuronalen Netzen. Wenn ein Kleinkind heranwächst, gibt es einen Zeitpunkt, an dem es einen Sinn für Objektpermanenz hat. Wenn man vor einem bestimmten Alter einen Ball oder ein Spielzeug oder was auch immer hinter dem Rücken hält und herausholt, ist das jedes Mal etwas Neues. Es ist wie: „Wow, dieses Spielzeug ist puff, verschwunden, und jetzt ist es wieder da.“ Und sie können es nicht glauben. Man kann den ganzen Tag lang Kuckuck spielen, weil Kuckuck jedes Mal neu ist. Aber dann finden wir heraus, dass das Objekt dauerhaft ist, und merken: „Oh nein, das Objekt ist nicht weg. Es ist nur hinter deinem Rücken.“
Lex Fridman: Manchmal wünschte ich, wir hätten die Objektpermanenz nie herausgefunden.
Elon Musk: Ja, das ist also ein…
Lex Fridman: Das ist ein wichtiges Problem, das es zu lösen gilt.
Elon Musk: Ja. Eine wichtige Entwicklung der neuronalen Netze im Auto ist das Gedächtnis über Zeit und Raum hinweg. Man muss sich überlegen, wie lange man sich Dinge merken will, und es hat seinen Preis, wenn man sich Dinge lange merken muss. Wenn man versucht, sich zu lange an zu viel zu erinnern, kann einem der Speicher ausgehen. Und dann gibt es auch Dinge, die veraltet sind, wenn man sich zu lange an sie erinnert. Aber man muss sich an Dinge über einen gewissen Zeitraum hinweg erinnern können.
Selbst wenn man nur ein fünf Sekunden Zeitgedächtnis hat, aber – sagen wir mal – man steht an einer Ampel und hat gesehen – nehmen wir das Beispiel eines Fußgängers -, dass Leute darauf warten, die Straße zu überqueren, und man kann sie wegen einer Verdeckung nicht ganz sehen, aber sie warten vielleicht eine Minute, bevor die Ampel umschaltet, damit sie die Straße überqueren können, muss man sich trotzdem daran erinnern, dass sie dort waren. Und dass sie wahrscheinlich die Straße überqueren werden. Selbst wenn dies also das zeitliche Gedächtnis übersteigt, sollte es nicht das räumliche Gedächtnis übersteigen.
Lex Fridman: (1:17:48) Ich denke, dass der Datensammelaspekt – also die Daten zu bekommen, um all die Konzepte zu lernen, die Du beschreibst – ein unglaublicher Prozess ist. Es ist dieser iterative Prozess. Es ist dieses HydraNet von vielen…
Elon Musk: HydraNet – Wir ändern den Namen in etwas anderes.
Lex Fridman: Okay. Sicher sowas wie bei „Rick and Morty“.
Elon Musk: Wir haben die neuronalen Netze in den Autos unglaublich oft umgestaltet.
Lex Fridman: Oh, jedes Mal, wenn es eine neue Hauptversion gibt, benennt Ihr sie also in etwas Lächerlicheres um – oder in etwas Einprägsames und Schönes? Tut mir leid, nicht lächerlich, natürlich.
Elon Musk: Wenn man sich die ganze Palette der neuronalen Netze ansieht, die die Autos steuern, dann kann man sich nur wundern. Es gibt so viele Schichten, es ist verrückt. Wir haben mit einfachen neuronalen Netzen begonnen, die im Grunde genommen die Bilderkennung eines einzelnen Bildes von einer einzelnen Kamera waren, und dann versucht, diese mit C zu verknüpfen. Ich sollte sagen, dass wir hier wirklich hauptsächlich C verwenden, weil C++ zu viel Overhead bedeutet. Wir haben unseren eigenen C-Compiler. Um eine maximale Leistung zu erzielen, haben wir einen eigenen C-Compiler geschrieben und optimieren ihn weiter, um maximale Effizienz zu erreichen. Tatsächlich haben wir erst kürzlich einen neuen C-Compiler entwickelt, der direkt mit unserer Autopilot-Hardware kompiliert werden kann.
Lex Fridman: (1:19:26) Ihr wollt also das Ganze mit Eurem eigenen Compiler erstellen…
Elon Musk: Ja, absolut.
Lex Fridman: …um effizient zu sein. Denn es gibt alle Arten von Computern, CPU, GPU, es gibt so etwas wie Grundtypen von Dingen. Und man muss irgendwie die Planung für all diese Dinge herausfinden. Man kompiliert also den Code, der alles…
Elon Musk: Ja.
Lex Fridman: Okay. Deshalb sind also eine Menge Leute daran beteiligt.
Elon Musk: Es gibt eine Menge Hardcore-Software-Engineering auf Bare-Metal-Ebene, weil wir versuchen, eine Menge Rechenarbeit zu leisten, die auf unseren FSD-Computer beschränkt ist. Wir wollen die höchstmögliche Anzahl Bilder pro Sekunde mit einer sehr begrenzten Menge an Rechenleistung erreichen. Wir haben uns wirklich viel Mühe mit der Effizienz unserer Rechenleistung gegeben. Einige sehr talentierte Software-Ingenieure bei Tesla haben eine Menge Arbeit geleistet, um die Effizienz der Berechnungen zu verbessern und die Art und Weise, wie wir die Trip-Beschleuniger verwenden, die im Grunde genommen Matrix-Skalarprodukte durchführen, zig Millionen Skalarprodukte. Bei unseren neuronalen Netzen sind es rechnerisch etwa 99 % Skalarprodukte.
Lex Fridman: (1:20:57) Und Ihr wollt so eine hohe Bildfrequenz wie bei einem Videospiel erreichen? Ihr wollt hohe Auflösung, hohe Bildfrequenz…
Elon Musk: Hohe Bildrate, geringe Latenz, geringer Jitter. Eines der Dinge, auf die wir uns jetzt zubewegen, ist der Verzicht auf eine Nachbearbeitung des Bildes durch den Bildsignalprozessor. Bei fast allen Kameras wird eine Menge Nachbearbeitung vorgenommen, damit die Bilder schön aussehen. Uns geht es nicht darum, dass die Bilder schön aussehen. Wir wollen nur die Daten, also bewegen wir nur die rohen Photonenzahlen.
Das Bild, das der Computer sieht, ist eigentlich viel mehr als das, was man sehen würde, wenn man es auf einer Kamera darstellt. Es enthält viel mehr Daten. Und selbst bei sehr schwachen Lichtverhältnissen kann man einen kleinen Unterschied in der Photonenzahl zwischen dem Punkt hier und dem Punkt dort erkennen, was bedeutet, dass der Computer im Dunkeln unglaublich gut sehen kann, weil er diese winzigen Unterschiede in der Photonenzahl viel besser erkennen kann, als man es sich vorstellt. Außerdem sparen wir 13 Millisekunden Verzögerung.
Lex Fridman: Durch das Entfernen der Nachbearbeitung des Bildes?
Elon Musk: Ja, denn wir haben acht Kameras, und jede Kamera hat eine Latenzzeit von etwa anderthalb Millisekunden, vielleicht 1,6 Millisekunden. Wenn wir den Bildprozessor umgehen, erhalten wir im Grunde 13 Millisekunden Latenzzeit zurück, was wichtig ist. Wir verfolgen die Latenzzeit vom Auftreffen des Photons auf die Kamera bis hin zu allen Schritten durch die verschiedenen neuronalen Netze und den C-Code. Es ist auch ein bisschen C++ dabei. Vielleicht eine Menge, aber das Kernstück, die anspruchsvollen Berechnungen, sind alle in C.
Wir verfolgen also diese Latenzzeit bis hin zu einem Ausgabebefehl an die Antriebseinheit, um zu beschleunigen, die Bremsen, um zu verlangsamen, die Lenkung, um nach links oder rechts zu drehen. Da man einen Befehl ausgeben muss, muss dieser an eine Steuerung gehen, und einige dieser Steuerungen haben eine Aktualisierungsfrequenz von vielleicht 10 Hertz oder so, was langsam ist – das heißt, man verliert jetzt möglicherweise 100 Millisekunden. Dann wollen wir die Treiber für die Lenk- und Bremssteuerung aktualisieren, so dass sie eher 100 Hertz statt 10 Hertz haben, und dann haben wir eine Latenzzeit von 10 Millisekunden statt 100 Millisekunden im schlimmsten Fall.
Eigentlich ist der Jitter eine größere Herausforderung als die Latenzzeit. Latenz ist etwas, das man vorhersagen kann, aber wenn man einen Stapel von Dingen hat, die von der Kamera zum Computer, durch eine Reihe von anderen Computern und schließlich zu einem Aktuator am Auto gehen – wenn man einen Stapel von Toleranzen hat, von zeitlichen Toleranzen, dann kann man eine ziemlich variable Latenz haben, die man Jitter nennt. Und das macht es schwer, genau vorauszusehen, wie man das Auto wenden oder beschleunigen sollte, denn wenn man 150, 200 Millisekunden Jitter hat, dann kann man um 2,2 Sekunden daneben liegen. Das macht einen großen Unterschied.
Lex Fridman: (1:24:47) Ihr müsst also irgendwie interpolieren, um mit den Auswirkungen des Jitters umzugehen, damit man robuste Steuerungsentscheidungen treffen kann. Ist der Jitter in den Sensorinformationen enthalten, oder kann der Jitter in jeder Phase der Pipeline auftreten?
Elon Musk: Bei einer berechenbaren Latenzzeit kann man sagen: „Okay, wir wissen, dass unsere Informationen sozusagen 150 Millisekunden veraltet sind.“ Also 150 Millisekunden von der Aufnahme der Photonen in die Kamera bis zu dem Zeitpunkt, an dem man eine Veränderung der Beschleunigung des Fahrzeugs messen kann. Dann kann man 150 Millisekunden berücksichtigen und diese Verzögerung kompensieren.
Wenn man jedoch eine Latenz von 150 Millisekunden plus 100 Millisekunden Jitter hat, der zwischen null und 100 Millisekunden liegen kann, dann kann die Latenzzeit zwischen 150 und 250 Millisekunden liegen. Jetzt hat man 100 Millisekunden, mit denen man nichts anzufangen weiß, da sie zufällig auftauchen. Die Beseitigung von Jitter ist also extrem wichtig.
Lex Fridman: Und das beeinflusst die Kontrollentscheidungen und all diese Dinge. Okay.
Elon Musk: Das Auto wird sich grundsätzlich besser manövrieren lassen und weniger ruckeln.
Lex Fridman: Ich hab’s.
Elon Musk: Die Autos werden mit übermenschlichen Fähigkeiten und Reaktionszeiten manövrieren, viel schneller als ein Mensch. Ich denke, dass der Autopilot mit der Zeit zu Manövern fähig sein wird, die weit über das hinausgehen, was James Bond in seinen besten Filmen tun könnte.
Lex Fridman: (1:26:36) Das ist genau das, was ich jetzt vor meinem geistigen Auge sah.
Elon Musk: Es handelt sich um unmögliche Manöver, die ein Mensch nicht durchführen könnte.
Lex Fridman: Lass mich eine Frage stellen, sozusagen einen Blick zurück auf die letzten sechs Jahre und einen Blick in die Zukunft. Wie schwierig wird es nach Deinem derzeitigen Kenntnisstand sein, ein komplett autonom fahrendes Auto bereitzustellen? Wann, glaubst Du, wird Tesla das Autonomie-Level 4 erreichen?
Elon Musk: Es sieht ganz danach aus, dass es nächstes Jahr so weit sein wird.
Lex Fridman: Und wie sieht die Lösung aus? Ist es der aktuelle Pool von FSD-Beta-Kandidaten? Sie werden immer mehr, je mehr Autonomie ihr erlangt. Und dann gibt es ein bestimmtes Niveau, ab dem die Autos selbständig fahren und die Fahrer können ein Buch lesen.
Elon Musk: Ja. Ich meine, man kann sehen, dass… jeder, der die Beta-Version des selbstfahrenden Autos genau verfolgt hat, wird sehen, dass die Rate der FSD-Abschaltungen rapide gesunken ist. Das heißt, dass der Fahrer eingreift, um das Auto davon abzuhalten, etwas Gefährliches zu tun. Die Zahl der Eingriffe pro Million Meilen ist drastisch gesunken. Und dieser Trend sieht so aus, dass im nächsten Jahr die Wahrscheinlichkeit eines Unfalls mit FSD geringer sein wird als die des durchschnittlichen Fahrers, und dann deutlich geringer als die des durchschnittlichen Fahrers. Es sieht also ganz danach aus, dass wir im nächsten Jahr dieses Ziel erreichen werden. Dann, natürlich… dann wird es einen Fall geben von… okay, nun, wir müssen das jetzt den Aufsichtsbehörden beweisen und… Wir wollen einen Standard, der nicht nur gleichwertig mit einem Menschen ist, sondern viel besser als der durchschnittliche Fahrer. Ich denke, die Sicherheit muss mindestens zwei- oder dreimal höher sein als beim Menschen, die Verletzungswahrscheinlichkeit muss zwei- oder dreimal geringer sein als beim Menschen, bevor wir tatsächlich sagen würden: „Okay, es kann losgehen.“ Es wird nicht gleichwertig sein, es wird viel besser sein.
Lex Fridman: (1:28:47) Also, wenn man sich das anschaut… FSD 10.6 ist erst kürzlich erschienen, 10.7 ist auf dem Weg. Wann können wir Version 11 erwarten?
Elon Musk: Wir hatten gehofft, 11 noch in diesem Jahr herauszubringen, aber es ist… 11 enthält eine ganze Reihe grundlegender Überarbeitungen der Architektur des neuronalen Netzes und einige grundlegende Verbesserungen bei der Erstellung des Vektorraums.
Lex Fridman: Es gibt also einen grundlegenden Sprung, der die 11 wirklich verdient. Ich meine, es ist eine ziemlich coole Zahl.
Elon Musk: Ja. 11 wäre ein einziger Stack für alle… Du weißt schon, „ein Stack, um sie alle zu knechten“. Aber es gibt einige wirklich grundlegende Änderungen an der Architektur des neuronalen Netzes, die viel mehr Möglichkeiten bieten werden, aber am Anfang wird es Probleme geben. Wir arbeiten an einer Art Alphasoftware, und sie ist gut – im Grunde genommen nehmen wir einen ganzen Haufen C/C++ Code und löschen eine große Menge C++ Code und ersetzen ihn durch das neuronale Netz. Andrej hat diesen Punkt oft angesprochen: Neuronale Netze sind eine Art Softwarefresser. Im Laufe der Zeit gibt es immer weniger konventionelle Software und immer mehr neuronale Netze – was immer noch Software ist, es geht immer noch um Softwarezeilen. Aber es gibt einfach mehr neuronale Netze und weniger Heuristik. Mehr Matrix-basiertes Zeug und weniger Heuristik-basiertes Zeug.
Zurzeit liefern die neuronalen Netze eine riesige Punktesammlung an den C++ oder C und C++ Code. Wir nennen das die „Riesentüte mit Punkten“. Man hat also ein Pixel und etwas, das mit diesem Pixel assoziiert ist – dieses Pixel gehört wahrscheinlich zu einem Auto, dieses Pixel gehört wahrscheinlich zu einer Fahrspur. Dann muss man diesen riesigen Punktesack in C Code zusammensetzen und in Vektoren umwandeln. Das klappt ziemlich gut. Aber wir brauchen noch eine weitere Schicht neuronaler Netze, um diese riesige Menge an Punkten in den Vektorraum zu destillieren, und zwar im neuronalen Netzteil der Software und nicht im heuristischen Teil der Software. Das ist eine große Verbesserung.
Lex Fridman: (1:31:51) Also wollt Ihr durchweg neuronale Netze.
Elon Musk: Es sind nicht einmal alles neuronale Netze, aber es ist ein entscheidender Fortschritt, dass man nicht mehr einen riesigen Sack mit Punkten hat, der mit vielen Zeilen C++ zusammengesetzt werden muss, sondern dass ein neuronales Netz diese Punkte einfach zu einem Vektor zusammensetzt, so dass das neuronale Netz viel, viel weniger Daten ausgibt. Es liefert Informationen wie: „Das ist eine Fahrspur, das ist ein Bordstein, das ist eine befahrbare Fläche, das ist ein Auto, das ist ein Fußgänger oder Radfahrer.“ oder so ähnlich. Es geht wirklich darum, richtige Vektoren an den C/C++ Steuerungscode auszugeben, im Gegensatz zu dieser Art von Vektorkonstruktion in C, die wir, glaube ich, ganz gut hinbekommen haben, aber wir stoßen sozusagen an ein lokales Maximum dessen, wie gut C das machen kann. Das ist also wirklich eine große Sache.
Und alle Netzwerke im Auto müssen auf Surround-Video umgestellt werden. Es gibt noch einige ältere Netzwerke, die nicht auf Surround-Video umgestellt sind. Das gesamte Training muss auf Surround-Video umgestellt werden. Die Effizienz des Trainings muss besser werden, und das wird sie auch. Dann müssen wir alles auf rohe Photonenmengen umstellen und nicht auf verarbeitete Bilder, was eine ziemlich große Umstellung für das Training bedeutet, da das System auf nachbearbeiteten Bildern trainiert wird. Wir müssen also das gesamte Training auf die rohen Photonenmengen statt auf das nachbearbeitete Bild umstellen.
Lex Fridman: Letztendlich geht es also darum, die Komplexität des Ganzen zu reduzieren.
Elon Musk: Die Anzahl der Codezeilen wird tatsächlich sinken. (1:33:51)