El CEO de Tesla, Elon Musk, presentó recientemente el Tesla Bot de la compañía. El nombre del robot, Optimus, se arrastró en un escenario, agitó la mano y bombeó los brazos en un movimiento de baile de velocidad lenta. Musk predice que el robot podría costar $ 20,000 dentro de tres a cinco años si todo va de acuerdo con el plan. Pero la pregunta es, ¿qué puede hacer por nosotros? Pero antes de entrar en eso, veamos los dispositivos principales que impulsan el bot Tesla.
Tesla Bot Actuators
El Actuadores son el sistema de accionamiento principal para cualquier robot. Se podría decir que un robot no es más que una PC con partes móviles, o en otras palabras, un robot es una PC con actuadores y sensores. Tesla ha desarrollado sus propios actuadores para el bot, utiliza 3 tipos de actuadores rotativos y 3 tipos de Actuadores lineales.
![Tesla Bot Actuators](https://cdn.shopify.com/s/files/1/0615/2193/files/tesla_bot_actuator_3_480x480.jpg?v=1665004218)
Si se pregunta por qué Tesla no usó actuadores lineales estandarizados como el FIRGELLI Actuator, porque tienen varias limitaciones, lo que significa que tienen que desarrollar sus propios sistemas para que los robots sean finalmente livianos, eficientes en energía, alta densidad de potencia y bajo costo. Tesla ha afirmado que quieren hacer que el bot se vine por $ 20,000 cada uno. Esto en sí mismo es una tarea difícil para que algo que sea Gong requiera 23 actuadores, y potente PC, muchos sensores y un paquete de baterías para que dure más de unas pocas horas, además de un esqueleto fuerte para mantener todo junto.
Tesla Bot Actuadores lineales
![Tesla Bot Actuadores lineales](https://cdn.shopify.com/s/files/1/0615/2193/files/tesla_bot_actuator_2_480x480.jpg?v=1665004006)
Los actuadores lineales desarrollados son altamente específicos para un papel específico, esto significa que realmente no serían de gran utilidad para ninguna otra aplicación que no sea un robot. Sus actuadores emplean un sistema de rodillos planetario y Tesla lo llama, pero esto es básicamente un código para el diseño de tornillo de bolos, y en lugar de una bobina de armadura magnética tradicional en el medio del motor, decidieron usar un diseño de motor de núcleo sin cepillo. Esto significa que el diseño del tornillo de plomo de la pelota es muy eficiente y usa menos potencia, pero también más caro. Y usan un sistema de energía sin escobillas, lo que significa que el tramo vivo será significativamente más rápido y permitirá modos de accionamiento altamente específicos controlados por el software.
![Tesla Bot Actuadores lineales](https://cdn.shopify.com/s/files/1/0615/2193/files/tesla_bot_actuator_1_480x480.jpg?v=1665003997)
La longitud del viaje es de solo 2 "de largo, y como se muestra la imagen de ellos levantando un piano a 500 kg, esto es mucho peso. Puede preguntarse por qué necesita levantar tanto peso?, Bueno, es porque cuando se instala en un Esqueleto de metal, el viaje de los actuadores necesita amplificar el golpe de lo que se mueve. Por lo tanto, si está moviendo la pierna de un robot, la pierna debe poder mover Alrededor de cero a un arco de 3 pies. El cuerpo Huma que ha evolucionado más de 100,000 de años nos permite a los humanos hacer esto usando los músculos de nuestros piernas, pero obtener un actuador lineal para hacer esto no es una tarea fácil. Por lo tanto, el punto es ' La realización es que, a pesar de que el actuador puede levantar 500 kg de peso en más de 2 pulgadas, una vez que los actuadores conectados a una palanca, la fuerza se reduce significativamente, dependiendo de la relación de apalancamiento, y pero la velocidad aumenta lo que hace que un buen comercio sea un buen comercio -apagado.
Presentación de Bot Tesla.
Esto es lo que Tesla mismo dijo sobre la última presentación de BOT que dieron el 30 de septiembre de 2022
Elon Musk presenta: WTengo algunas cosas realmente emocionantes para mostrarte, creo que estarás bastante impresionado. Quiero establecer algunas expectativas con respecto a nuestro Robot Optimus, ya que, como saben, el año pasado, fue solo una persona con un traje de robot, pero no hemos recorrido un largo camino y creo que es decir, en comparación con que es que es va a ser muy impresionante. Y vamos a hablar sobre los avances en la IA para la autocompasión completa, así como cómo se aplican a másEn general, a los problemas de IA del mundo real como un robot humanoide e incluso ir más allá de eso. Creo que existe un potencial de que lo que estamos haciendo aquí en Tesla podría hacer una contribución significativa a AGI, y creo que en realidad nos dice una buena entidad para hacerlo desde el punto de vista de la gobernanza porque somos una empresa que cotiza en bolsa tenemos una clase de stock y eso significa que el públicocontrola a Tesla y creo que eso es realmente algo bueno, así que si me vuelvo loco, puedes despedirme de estoes importante, tal vez no estoy loco, no lo se conozco. Así que sí, así que vamos a hablar mucho sobre nuestro progreso en AI AutoPilot, así como sobre el progreso con Dojo, y luego vamos a sacar al equipo y hacer un largo y A de preguntas y respuestas para que pueda preguntar duro preguntas. Cualquier cosa que desee preguntas sobre preguntas existenciales si quisiera tener el mayor tiempo posible para las preguntas y respuestas, así que veamos con eso, adivina qué diariamente.
Hola chicos, soy Milán, trabajo en piloto automático y es un caucho, soy Lizzy, un ingeniero mecánico en el proyecto, está bien, así que deberíamos deberíamos mencionar el bot antes de que avancemos la primera vez que probemos este robot sin ninguna grúa de soporte de respaldo
mecanismos mecánicos sin cables nada, sí, quiero unirme a ustedes
Esta noche, pero fue la primera vez, vamos a verte listo, vamosLa computadora sin conductor que se ejecuta en sus autos Tesla, por cierto, esta es literalmente la primera vez que el robot ha operado sin atar estaba en el escenario esta noche, por lo que el robot puede hacer mucho más de lo que acabamos de mostrarnos Simplemente no quería que cayera a la cara, así que le mostraremos algunos videos ahora del robot haciendo un montón de otras cosas, um, que son menos arriesgadas.
Sí, queríamos mostrar un poco más lo que hemos hecho en los últimos mesescon aparte y simplemente caminando y bailando en el escenario y solo humildes comienzos, pero puedes ver las redes neuronales del piloto automático que se ejecutan como
solo se reinicia para el brote directamente en esa nueva plataforma que es mi riego, ¿puedes ver?Una visión renderizada que es el robot que es el mundo que ve el robot, por lo que es que es muy claramente identificación de objetos como este es el objeto que debe recogerlo. Utilizamos el mismo proceso que lo hicimos para el piloto automático para recopilar datos en capacitar sus redes que luego implementamos en el
robot ese es un ejemplo que ilustra la parte superior del cuerpo un poco más
Algo que nos gustará tratar de clavar en unos meses durante los próximos meses, diría a la perfección.Esta es realmente una estación real en la fábrica de Fremont también en la que está funcionando.
Eso no es lo único que tenemos que mostrar hoy para que lo que viste fue lo que llamamos Bumble C, ese es nuestro tipo de robot de desarrollo aproximado usando actuadores semi-inactores, pero en realidad hemos llegado un paso más allá de eso. El equipo ha hecho un trabajo increíble y en realidad tenemos un bot con un
Tesla totalmente diseñado en ambos actuadores Sistema de control de bateríasTodo lo que no estaba listo para caminar, pero creo que caminará en unas pocas semanas, pero queríamos mostrarte el robot y algo que en realidad está bastante cerca de lo que entrará en la producción y te mostrará todas las cosas que puede hazlo vamos a sacarlo
Esperamos tener en Optimus Production Unit Uno, que es la capacidad.
Para mover todos los dedos, mueve el pulgar de forma independiente, tenga dos
grados de libertad, por lo que tiene pulgares opuestos y tanto a la izquierda como a la derecha, así que
Es capaz de operar herramientas y hacer cosas útiles, nuestro objetivo es hacer un
robot humanoide lo más rápido posible y también lo hemos diseñado usando el
La misma disciplina que usamos en el diseño del automóvil, lo que es decir que diseñe para la fabricación de tal manera que sea posibleHaga el robot en un volumen alto a bajo costo con alta confiabilidad, así que es increíblemente importante, quiero decir, todos han visto demostraciones de robot humanoide muy impresionantes y eso es genial, pero ¿qué están perdiendo?, les faltan un cerebro, no les tener la inteligencia para
navegar por sí mismos y también son muy caros,y hecho en bajo volumen, mientras que esta es la sociedad optimista y el robot extremadamente capaz, pero hecho en un volumen muy alto, probablemente, en última instancia, millones de unidades y se espera que cueste mucho menos que un automóvil.
Yo diría que probablemente menos de veinte mil dólares sería mi suposición
El potencial de optimista es, creo que apreciado por muy efectivo
La gente oye, como de costumbre, las demostraciones de Tesla están llegando en calienteAsí que está bien, ¡eso es bueno, es bueno, sí, sí, los equipos se ponen y el equipo ha realizado una increíble cantidad de trabajo, ¿son los días hábiles? Súper orgulloso de lo que han hecho es que realmente hayan hecho un gran trabajo, solo me gusta poner una mano a toda la opción de este equipo para que sepas que ahora todavía hay mucho trabajo por hacer para refinar Optimus y Mejorarlo obviamente, esta es solo la versión uno de Optimus y es realmente por eso que estamos celebrando este evento, lo que es convencer a algunas de las personas más talentosas del mundo como ustedes para que se unan a Tesla y ayuden a hacer que sea realidad y lo haga realidad Escala de tal manera que pueda ayudar a millones de personas y al y al potencial que le gusta es realmente aturde la mente porque tienes que decir lo que es una economía una economía es una especie de entidades productivas veces la productividad de la producción de capital de capital. productividad per cápita en el punto en que no existe una limitación en el capital, no está claro lo que una economía significa en ese momento una economía se vuelve cuasialmente infinita, así que lo que sabes que se le lleva a buen término en el escenario benigno um, esto significa un Futuro de la abundancia Un futuro en el que no hay pobreza donde las personas
puede tener lo que desee en términos de productos y serviciosRealmente es una transformación fundamental de la civilización, tal como lo sabemos obviamente, queremos asegurarnos de que la transformación sea positiva y segura, pero también es por eso que creo que Tesla como entidad que hace esta es una sola clase de acciones que se negocian públicamente por la El público es muy importante y no debe pasarse por alto, creo que esto es esencial porque si al público no le gusta lo que Tesla está haciendo el público puede comprar acciones en Tesla y votar de manera diferente.
Este es un gran problema como es muy importante que no pueda hacer lo que quiero que sepasA veces las personas piensan que no, pero no es cierto, por lo que sabes que es muy importante que la entidad corporativa que tiene que hacer que esto suceda es algo en lo que el público puede influir adecuadamente, por lo que creo que la estructura de Tesla es ideal para eso y como eso. Dije que sabes que los autos autónomos ciertamente tendrán un tremendo impacto en el mundo, creo que mejorarán el
productividad del transporte en al menos medio orden de magnitud quizás unOrden de magnitud Quizás más optimistas de UM Creo que tal vez tenga una mejora potencial de dos orden de magnitud en la producción económica, como si no estuviera claro, no está claro cuál es el límite en realidad, pero necesitamos hacer esto de la manera correcta que necesitamos hacer. Es cuidadoso y de manera segura y se asegura de que el resultado sea beneficioso para la civilización y y que la humanidad una vez que no puedo, esto también es extremadamente importante obviamente, así que espero que considere unirse a Tesla para lograr esos objetivos en Tesla We We We Realmente te importa hacer lo correcto aquí siempre aspira a hacer lo correcto y realmente no pagar el camino al infierno con buenas intenciones y creo que el camino al infierno está en su mayoría pavimentado con malas intenciones, pero de vez en cuando hay una buena intención en Allí, así que queremos hacerlo, haz lo correcto, así que sabes que consideras unirte a nosotros y ayudar a que suceda, um con eso, vamos a pasar a la siguiente fase directamente en gracias Elon
Muy bien, así que has visto un par de robots hoy, hagamos un resumen rápido de la línea de tiempo, así que el año pasado presentamos el Tesla Bot
concepto, pero un concepto no nos lleva muy lejos, sabíamos que necesitábamos una plataforma de desarrollo e integración real para
Obtenga aprendizajes de la vida real lo más rápido posible para que ese robot salió e hizo la pequeña rutina para ustedes
Tuve eso en seis meses construido trabajando en actualizaciones de hardware de integración de software durante los meses posteriores, pero
En paralelo también hemos estado diseñando la próxima generación esta por aquí
Entonces, este tipo está enraizado en la base de la especie de proceso de diseño del vehículo, sabe que estamos aprovechando todo
Esos aprendizajes que ya tenemos obviamente hay muchas cosas que han cambiado desde el año pasado, pero hay algunas cosas.
que siguen siendo los mismos que notará que todavía tenemos este enfoque realmente detallado en la verdadera forma humana, creemos que
importa por algunas razones, pero es divertido pasar mucho tiempo pensando en lo increíble que es el cuerpo humano que tenemos
Este increíble rango de movimiento generalmente realmente sorprendente una diversión
El ejercicio es que si pones la punta de los dedos en la silla frente a ti, notarás que hay una gran variedad de movimiento que
Tienes en el hombro y el codo, por ejemplo, sin mover la punta de los dedos, puedes mover esas articulaciones todas
sobre el lugar um, pero el robot que conoce su función principal es hacer un trabajo útil real y
Tal vez no necesariamente necesite todos esos grados de libertad de inmediato, por lo que la hemos reducido a un tipo mínimo
de 28 grados fundamentales de libertad y luego, por supuesto, nuestras manos además de eso
Los humanos también son bastante eficientes en algunas cosas y no son tan eficientes en otros momentos, por lo que, por ejemplo, podemos comer un pequeño
cantidad de comida para sostenernos durante varias horas, eso es genial, pero cuando estamos sentados no
ofensa, pero somos un poco ineficientes, somos una especie de energía ardiente, así que en la plataforma de robots lo que estamos
Lo haré es minimizar que el consumo de energía inactivo lo suelte lo más bajo posible y de esa manera podemos simplemente podemos
voltee un interruptor e inmediatamente el robot se convierte en algo que hace un trabajo útil
Así que hablemos de esta última generación con algún detalle, ¿nosotros en la pantalla aquí verá en
Orange son actuadores a los que llegaremos un poco y en azul nuestro sistema eléctrico
Entonces, ahora que tenemos nuestro tipo de investigación basada en humanos y tenemos nuestra primera plataforma de desarrollo, tenemos ambos
Investigación y ejecución para extraer para este diseño nuevamente estamos usando ese diseño de vehículos
base, así que lo estamos tomando del concepto a través del diseño y el análisis y
Luego construya y validación en el camino vamos a optimizar para cosas como el costo y la eficiencia
porque esas son métricas críticas para llevar este producto a escala eventualmente, ¿cómo vamos a hacer eso bien?
Voy a reducir nuestro recuento de piezas y nuestro consumo de energía de cada elemento posible, haremos cosas como
Reduzca la detección y el cableado en nuestras extremidades que pueda imaginar mucha masa en sus manos y pies
Sea bastante difícil y de consumo de poder para moverse y vamos a centralizar ambos
Distribución de energía y nuestro cálculo al centro físico de la plataforma
Entonces, en el medio de nuestro torso, en realidad es el torso que tenemos nuestra batería, esto tiene un tamaño de 2.3 kilovatios horas
que es perfecto para un día completo de trabajo, lo que es realmente único sobre esta batería
Paquete es que tiene todos los productos electrónicos de batería integrados en una sola PCB dentro del paquete, lo que significa todo
Desde la detección hasta la fusión de la gestión de cargos y la distribución de energía
En un lugar también estamos aprovechando tanto nuestros productos de vehículos como nuestros productos energéticos para rodar
Todas esas características clave en esta batería, por lo que la fabricación simplificada es realmente eficiente y
Métodos de enfriamiento simples Gestión de baterías y también seguridad y, por supuesto, podemos aprovechar Tesla's
Infraestructura existente y cadena de suministro para que sea así que pase a nuestro cerebro es
no en la cabeza, pero también está bastante cerca en nuestro torso, tenemos nuestra computadora central, así que, como ya sabes, Tesla ya
envía computadoras sin conductor en cada vehículo que producimos que queremos aprovechar tanto el hardware del piloto automático como
El software para la plataforma humanoide pero porque es diferente en requisitos y en el factor de forma estamos
Voy a cambiar algunas cosas primero, así que todavía vamos a hacer todo lo que hace un cerebro humano
Procesamiento de datos de visión de visión Decisiones de segunda segunda base basada en múltiples entradas sensoriales y también comunicaciones
Entonces, para apoyar las comunicaciones, está equipado con conectividad inalámbrica y soporte de audio
Y luego también tiene características de seguridad de nivel de hardware que son importantes para proteger tanto el robot como las personas
alrededor del robot, así que ahora que tenemos nuestro tipo de núcleo
Vamos a necesitar algunas extremidades en este tipo y nos encantaría mostrarte un poco sobre nuestros actuadores y nuestros completamente
manos funcionales también, pero antes de hacer eso me gustaría presentarle a Malcolm que va a hablar un poco sobre
Nuestra base estructural para el robot [aplausos]
gracias
Tesla tiene la capacidad de finalizar sistemas altamente complejos, se vuelve mucho más complejo que un accidente que puede ver
Aquí un bloqueo simulado en el Modelo 3 superpuesto sobre el bloqueo físico real
Es realmente increíble lo preciso que es solo darle una idea de la complejidad de este modelo.
Incluye todas las soldaduras de Knot Bolton en cada soldado de Spot y tiene 35 millones de grados de libertad, es bastante sorprendente
Y es cierto decir que si no teníamos modelos como este no podríamos hacer los autos más seguros del mundo.
Entonces, ¿podemos utilizar nuestras capacidades y nuestros métodos desde el lado automotriz para influir en un robot?
Bueno, podemos hacer un modelo y, dado que tuvimos un software de bloqueo, utilizamos el mismo software aquí, podemos hacer que se caiga
El propósito de esto es asegurarse de que si se cae idealmente no lo hace, pero es un daño superficial
No queremos, por ejemplo, romper su caja de cambios en sus brazos equivalentes a un hombro dislocado de un robot
Difícil y costoso de arreglar, por lo que queríamos desempolvarnos con un trabajo que se ha dado
Si también pudiéramos tomar el mismo modelo y podemos impulsar los actuadores utilizando la entrada de un modelo previamente resuelto
darle vida para que esto esté produciendo los movimientos para las tareas que queremos que el robot haga estas
Las tareas están recogiendo cajas girando en cuclillas caminando arriba, sea cual sea el conjunto de tareas que podamos jugar con el
modelo Esto muestra una caminata simple, podemos crear el estrés en todos los componentes que nos ayudan a
optimizar los componentes que no son robots de baile estos son
En realidad, el comportamiento modal los primeros cinco modos del robot y, por lo general, cuando las personas hacen robots se aseguran
El primer modo está en las cifras individuales superiores hacia 10 Hertz
¿Quién es?
Donde tu pie se tambalea, está bien hacer un robot, queremos hacer miles de millones
No tenemos el lujo de hacerlos de titanio de fibra de carbono, queremos que las cosas de plástico no
muy rígido, así que no podemos tener estos objetivos altos los llamaré objetivos tontos
Tenemos que hacer que funcionen en objetivos más bajos, así que es que va a funcionar bien si lo piensas
Esto, pero solo somos bolsas de gelatina y huesos empapados.
mi pierna no vibro a 10 hertz que las personas operan a baja frecuencia, así que nosotros
saber que el robot realmente puede hacer que los controles sean más difíciles, por lo que tomamos la información de los datos modales y
la rigidez y la alimentación que en el sistema de control que le permite caminar
Simplemente cambiando el impuesto ligeramente mirando la rodilla podríamos inspirarnos en
biología y podemos mirar para ver cuáles son las ventajas mecánicas de la rodilla, resulta que en realidad representa bastante
Similar al enlace de cuatro bares y eso es bastante lineal, eso no es sorprendente realmente porque si
Crees que cuando doblas la pierna por el par de tu rodilla es mucho más cuando está doblado de lo que es cuando es
recto, por lo que esperaría una función no lineal y, de hecho, la biología no es lineal
Esto coincide con bastante precisión, así que esa es la representación de los cuatro por
El enlace obviamente no es físicamente cuatro barras de enlace, ya que dije que las características son similares, pero apostando a eso, eso es
No es muy científico, seamos un poco más científicos, hemos jugado todas las tareas a través de este gráfico, pero esto
está mostrando piquetes de en cuclillas en las tareas que dije que hicimos sobre el estrés y esa es la charla de la charla en
la rodilla contra la rodilla de la rodilla en el eje horizontal Esto muestra el requisito de que la rodilla haga todo esto
tareas y luego poner una curva a través de ella surfeando sobre la parte superior de los picos y eso es decir que esto es lo que se requiere para
hacer que el robot haga estas tareas
Entonces, si miramos el enlace de cuatro bares, que en realidad es la curva verde y dice que la no linealidad del
Cuatro por enlace en realidad se linealizan la característica de la fuerza que eso realmente dice que ha bajado la fuerza
Eso es lo que hace que el actuador tenga la fuerza más baja posible, que es la más eficiente que queremos quemar energía lentamente
¿Cuál es la curva azul?
sobresaliendo de mi pierna aquí con un actuador con un simple enlace de dos bares
Eso es lo mejor que podría hacer con un simple enlace de dos bares y muestra que eso crearía mucha más fuerza en el
actuador que no sería eficiente, entonces, ¿cómo se ve eso en la práctica?
Bueno, como verás, pero está muy bien empaquetado en la rodilla, verás un buen
transparente en un segundo verá el enlace de la barra completa allí está operando en el actuador, esto se determina el
Fuerza y los desplazamientos en el actuador y ahora te pasan a la concertina para
Así que soy, me gustaría hablar contigo sobre el proceso de diseño y el actuador
cartera uh en nuestro robot, por lo que hay muchas similitudes entre un
El automóvil y el robot cuando se trata del diseño del tren motriz lo más importante que importa aquí es la masa de energía y el costo
Estamos llevando a cabo la mayor parte de nuestra experiencia de diseño desde el automóvil hasta el robot.
Entonces, en el caso particular, ves un automóvil con dos unidades de transmisión y las unidades de accionamiento
se utilizan para acelerar el automóvil de 0 a 60 millas por hora o conducir un
Las ciudades conducen el sitio, mientras que el robot que tiene 28 actuadores y
No es obvio cuáles son las tareas en el nivel del actuador, por lo que tenemos tareas que
son de nivel superior como caminar o subir escaleras o llevar un objeto pesado que debe traducirse a
articulación en especificaciones conjuntas, por lo tanto, usamos nuestro modelo
que genera las trayectorias de velocidad de par para nuestras juntas que
Posteriormente se alimentará en nuestro modelo de optimización y se ejecutará
el proceso de optimización Este es uno de los escenarios que el
El robot es capaz de hacer lo que está girando y caminando, así que cuando tenemos esta velocidad de par
trayectoria que colocamos sobre un mapa de eficiencia de un actuador y podemos a lo largo
la trayectoria para generar el consumo de energía y la energía acumulativa
Energía para la tarea versus tiempo, por lo que esto nos permite definir el sistema
Costo para el actuador particular y poner un punto simple en la nube que lo hacemos
Esto para cientos de miles de actuadores resolviendo en nuestro clúster y la línea roja denota el frente de Pareto
cuál es el área preferida donde buscaremos óptimos para que la X denote
El diseño del actuador preferido que hemos elegido para esta articulación en particular, por lo que ahora necesitamos hacer esto para cada articulación que
tener 28 articulaciones para optimizar y analizamos nuestra nube, analizamos nuestra nube nuevamente para cada articulación
especificación y el eje rojo esta vez denota los diseños de actuador a medida para cada
junta El problema aquí es que tenemos demasiados diseños de actuadores únicos y
Incluso si aprovechamos la simetría, todavía hay demasiados para hacer algo masivo
Manufacturable, necesitamos poder reducir la cantidad de diseños de actuadores únicos, por lo tanto, ejecutamos algo
Llamado estudio de la comunidad que analizamos nuestra nube nuevamente buscando esta vez
actuadores que cumplan simultáneamente los requisitos de rendimiento conjunto para más de una articulación al mismo tiempo para que el
La cartera resultante es seis actuadores y se muestran en un mapa de color la figura media
Um y los actuadores también se pueden ver en esta diapositiva, tenemos tres rotativos y
tres actuadores lineales, todos los cuales tienen una gran fuerza de salida o par por masa
El actuador rotativo en particular tiene un embrague mecánico integrado en el contacto angular del lado de alta velocidad
rodamiento de bolas y en el lado de alta velocidad y en el lado de baja velocidad un rodillo cruzado
El rodamiento y el tren de engranajes son un engranaje de onda de tensión y hay tres sensores integrados
Aquí y la máquina magnégel de forma permanente a medida, el actuador lineal
Lo siento, el actuador lineal tiene rodillos planetarios y un tornillo planetario invertido
Como un tren de engranajes que permite la eficiencia, la compactación y la durabilidad
Entonces, para demostrar la capacidad de fuerza de nuestros actuadores lineales, nosotros
Han configurado un experimento para probarlo bajo sus límites
y te dejaré disfrutar el video
Entonces nuestro actuador puede levantar
Medio tono de nine pies conciertos piano de cola
y
Este es un requisito, no es algo agradable de tener porque nuestros músculos pueden hacer
lo mismo cuando son impulsados directamente cuando están directamente impulsados o los músculos cuádriceps pueden hacer lo mismo
Es solo que la rodilla es un sistema de vinculación de engranajes que convierte la fuerza
en velocidad al final efector de nuestras colinas para fines de dar a la
agilidad del cuerpo humano, así que esta es una de las principales cosas que son sorprendentes sobre el cuerpo humano y yo soy
Concluyendo mi parte en este momento y me gustaría darle la bienvenida a mi colega Mike, quien te va a hablar sobre la mano
Diseño muchas gracias gracias constantinos
Así que vimos cuán poderoso puede ser un actuador humano y un humanoide
Los humanos también son increíblemente hábiles, la mano humana tiene la capacidad de moverse
A 300 grados por segundo tiene decenas de miles de sensores táctiles
Y tiene la capacidad de comprender y manipular casi todos los objetos de nuestra vida diaria
Para nuestro diseño de manos robóticas, nos inspiramos en la biología, tenemos cinco dedos un pulgar opuesto
Nuestros dedos están impulsados por tendones metálicos que son flexibles y fuertes, tenemos la capacidad de completar amplios
La potencia de apertura se comprende, al tiempo que se optimiza para el agarre de precisión de objetos delgados y delicados.
Entonces, ¿por qué una mano robótica humana como un humano, la razón principal es que nuestras fábricas y el mundo que nos rodea es
diseñado para ser ergonómico, entonces lo que eso significa es que asegura que los objetos en nuestra fábrica sean comprensibles
Pero también asegura que los nuevos objetos que nunca antes habíamos visto pueden ser agarrados por la mano humana y por nuestra
mano robótica también lo contrario es bastante interesante porque está diciendo que estos objetos están diseñados para nuestra mano.
En lugar de tener que hacer cambios en nuestra mano para acompañar un nuevo objeto
Algunas estadísticas básicas sobre nuestra mano es que tiene seis actuadores y 11 grados de libertad, tiene un controlador en la mano que
conduce los dedos y recibe retroalimentación del sensor La retroalimentación del sensor es realmente importante para
Aprenda un poco más sobre los objetos que estamos comprendiendo y también para la propiocepción y esa es la capacidad de reconocer dónde
Nuestra mano está en el espacio, uno de los aspectos importantes de nuestra mano es que es adaptable esta adaptabilidad
está involucrado esencialmente como mecanismos complejos que permiten que la mano se adapte a los objetos que se están capturando
Otra parte importante es que tenemos una unidad de dedos que no se puede manejar, este mecanismo de agarre nos permite sostener
y transportar objetos sin tener que encender los motores de la mano que acaba de escuchar cómo pasamos
Fuimos a diseñar el hardware Tesla Bot ahora lo entregaremos a Milán y a nuestro equipo de autonomía para traer esto
Robot a la vida gracias Mike
Muy bien um, así que todas esas cosas interesantes que hemos mostrado anteriormente en el video fueron publicadas
Posible en cuestión de unos meses gracias a la increíble palabra que hemos hecho piloto automático en los últimos años
La mayoría de esos componentes se portan bastante fácilmente al entorno de bots si lo piensas, solo nos estamos moviendo
Desde un robot sobre ruedas hasta un robot en las piernas, por lo que algunos de esos componentes son bastante similares y otros requieren
más trabajo pesado, por ejemplo, nuestras redes neuronales de visión por computadora
informado directamente del piloto automático a la situación de los bots Es exactamente la misma red de ocupación
que estamos hablando un poco más de detalles más tarde con el equipo de piloto automático que ahora se está ejecutando en el bot aquí en
Este video, lo único que cambió realmente son los datos de entrenamiento que tuvimos que recordar
También estamos tratando de encontrar formas de mejorar esas redes de ocupación utilizando el trabajo realizado en sus campos de radiación para obtener
realmente una gran representación volumétrica de los entornos de bots, por ejemplo, aquí algunos
máquina lee que el bot podría tener que interactuar con
Otro problema interesante en el que pensar es en entornos interiores, principalmente con esa sensación de GPS señalan cómo
Llegue a navegar a su destino, por ejemplo, para encontrar su estación de carga más cercana para que estemos entrenando
más redes neuronales para identificar las características de alta frecuencia puntos clave dentro del
Bots La cámara se transmite y los rastrea a través de los cuadros con el tiempo a medida que el bot a su entorno
y estamos utilizando esos puntos para obtener una mejor estimación de los bots pose y trayectoria dentro de su entorno como
está caminando también hicimos un poco de trabajo en el
lado de simulación y este es literalmente el simulador de piloto automático al que hemos integrado la locomoción del robot
código y este es un video del código de control de movimiento que se ejecuta en el simulador del simulador de operador que muestra el
La evolución de los robots camina con el tiempo y, como puede ver, comenzamos bastante lentamente en abril y comenzamos a acelerar
A medida que desbloqueamos más articulaciones y técnicas más profundas más avanzadas como el equilibrio de armas en los últimos meses
Y así, la locomoción es específicamente un componente que es muy diferente a medida que nos estamos moviendo del automóvil a los bots
entorno y por eso creo que garantiza un poco más de profundidad y me gustaría que mis colegas comiencen a hablar de esto
ahora extranjero
Hola a todos, soy Felix soy ingeniero de robótica en el proyecto y voy a hablar de caminar
Parece que la gente es fácil que lo hagan todos los días, ni siquiera tienes que pensarlo
Pero hay algunos aspectos de caminar que son desafiantes desde la perspectiva de la ingeniería, por ejemplo,
autoconciencia física que significa tener una buena representación de ti mismo, ¿cuál es la longitud de tus extremidades?
la masa de las extremidades de cuál es el tamaño de sus pies, todo lo que importa también tener una puerta de eficiencia energética
puedo imaginar que hay diferentes estilos de caminar y todos son igualmente eficientes
El equilibrio de mantenimiento más importante no cae y, por supuesto, también coordina el movimiento
de todas sus extremidades juntas, así que ahora los humanos hacen todo esto naturalmente, pero como ingenieros o robotistas tenemos
Pensar en estos problemas y si les voy a mostrar cómo los abordamos en nuestra planificación y control de locomoción
pila, así que comenzamos con la planificación de la locomoción y nuestra representación del vínculo que
significa el modelo de la dinámica cinemática del robot y las propiedades de contacto y el uso de ese modelo y el deseado
ruta para los bots Nuestro planificador de locomoción genera trayectorias de referencia para todo el sistema
Esto significa trayectorias factibles con respecto a los supuestos de nuestro modelo
El planificador actualmente funciona en tres etapas, comienza a planificar pasos y termina con todo el sistema de fotos de movimiento
Y vamos un poco más profundos en cómo funciona esto, así que en este video vemos que los pasos se planean sobre la planificación
Horizonte siguiendo la ruta deseada y comenzamos desde esto y agregamos luego para
Trayectorias que conectan estos pasos usando el dedo del pie apagado y producen ataque tal como lo hacen los humanos tal como lo hacen los humanos
y esto nos da un paso más grande y menos curva de rodilla para una alta eficiencia del sistema
La última etapa es encontrar un centro de trayectoria masiva que nos da una tarifa de movimiento dinámicamente factible del
todo el sistema para mantener el equilibrio, ya que todos sabemos que los planes son buenos, pero nosotros
También tengo que darme cuenta en la realidad, digamos que sabes cómo podemos hacer esto.
[Aplauso] Gracias Felix Hola a todos mi nombre
es Anand y voy a hablar contigo sobre los controles, así que tomemos el plan de movimiento que Felix
Solo hablé y lo puse en el mundo real en un robot real, veamos qué pasa
Toma un par de pasos y cae bien, eso es un poco decepcionante
Pero nos faltan algunas piezas clave aquí que lo harán funcionar
Ahora, como Felix mencionó, el planificador de movimiento está utilizando una versión idealizada de
en sí y una versión de la realidad a su alrededor, esto no es exactamente correcto
También expresa su intención a través de trayectorias y ramas de llaves de
fuerzas y pares que quiere ejercer en el mundo para locomotear
La realidad es mucho más compleja que cualquier modelo similar, el robot no es
Simplificado tiene vibraciones y modos de ruido del sensor de cumplimiento y
Y entonces, ¿qué le hace eso al mundo real cuando pones el bot en el mundo real?
Bueno, las fuerzas inesperadas causan una dinámica no modelada que esencialmente el planificador no sabe y eso
Causa desestabilización, especialmente para un sistema que es dinámicamente estable como la locomoción bípeda
Entonces, ¿qué podemos hacer al respecto, medimos la realidad? Usamos sensores y nuestra comprensión de
el mundo para hacer la estimación y el estado del estado para mí aquí puede ver la actitud y la pose de la pelvis que es
Esencialmente, el sistema vestibular en un humano junto con el centro de la trayectoria de masa se rastrean cuando el robot camina
En el entorno de la oficina ahora tenemos todas las piezas que necesitamos en
para cerrar el bucle para que usemos nuestro mejor modelo de bot, usamos la comprensión de la realidad que
Hemos ganado a través de la estimación estatal y comparamos lo que queremos versus lo que esperamos la realidad que esperamos que
la realidad nos está haciendo para agregar correcciones al comportamiento del
Robot aquí El robot ciertamente no aprecia que lo empujen pero no
trabajo admirable de mantenerse vertical, el punto final aquí es un robot que
caminatas no es suficiente que necesitáramos usar sus manos y brazos para
Sea útil hablemos de manipulación
[Aplausos]
Hola a todos, mi nombre es Eric Robotics Engineer en Teslabot y quiero hablar
sobre cómo hemos hecho que el robot manipule las cosas en el mundo real queríamos manipular objetos mientras
parecer lo más natural posible y también llegar rápidamente, así que lo que hemos hecho es
Primero hemos dividido este proceso en dos pasos es generar una biblioteca de referencias de movimiento natural o podríamos
Llámelos demostraciones y luego hemos adaptado estas referencias de movimiento en línea a la situación actual del mundo real
Entonces, digamos que tenemos una demostración humana de recoger un objeto, podemos obtener una captura de movimiento de eso.
demostración que se visualiza aquí como un montón de fotogramas clave que representan las ubicaciones de las manos
Los codos el torso podemos asignarlo al robot usando cinemática inversa y si recolectamos un
Muchos de estos ahora tenemos una biblioteca con la que podemos trabajar pero una sola demostración no es
generalizable a la variación en el mundo real, por ejemplo, esto solo funcionaría para una caja en un
Ubicación Entonces, lo que también hemos hecho es ejecutar estas trayectorias de referencia a través de un
Programa de optimización de trayectoria que resuelve dónde debe estar la mano cómo el robot debe equilibrarse
durante uh cuando necesita adaptar el movimiento al mundo real, por ejemplo
Si la caja está en esta ubicación, nuestro optimizador creará esto
trayectoria en su lugar, el próximo Milán va a hablar sobre uh
¿Qué sigue para el Optimus Uh Tesla y? Gracias Larry
Bien, con suerte, ustedes tienen una buena idea de lo que hemos estado haciendo en los últimos meses
Comenzamos a hacer algo que se puede usar, pero está lejos de ser útil, todavía hay un camino largo y emocionante.
Antes de nosotros, creo que lo primero en las próximas semanas es obtener Optimus al menos en
par con Bumble c El otro prototipo de errores que viste antes y probablemente más allá también vamos a comenzar
Centrarse en el caso de uso real en una de nuestras fábricas y realmente intentaré tratar de clavar esto y me quede sin todo
Los elementos necesarios para implementar este producto en el mundo real que estaba mencionando antes
Um conoce la navegación en interiores elegante para la gestión o incluso el servicio a todos
Los componentes necesarios para escalar este producto, pero no sé sobre usted, pero después
Al ver lo que hemos mostrado esta noche, estoy bastante seguro de que podemos hacer esto en los próximos meses o años y hago
Este producto es una realidad y cambia toda la economía, por lo que me gustaría agradecer a todo el equipo de Optimus por el duro
Trabajar en los últimos meses Creo que es bastante sorprendente, todo esto se hizo en apenas seis u ocho meses gracias
mucho [aplausos]
Gracias oye a todos
hola soy ashok lidero el equipo de piloto automático junto a el dios de Milán, es tan difícil superar eso
Sección Optimus que intentará de todos modos
um cada tesla que se ha construido en los últimos años creemos que tiene el
hardware para que el automóvil se manifique en sí hemos estado trabajando en el software para
Agregue niveles de autonomía cada vez más altos esta vez alrededor del año pasado que tuvimos
Aproximadamente 2 000 autos que conducen nuestro software FSD Beta desde entonces tenemos significativamente
Mejoró el software como robustez y capacidad que ahora lo hemos enviado a 160 000 clientes a partir de hoy
sí [aplausos]
Esto no viene gratis, vino del sudor y la sangre del equipo de ingeniería durante el último año
Por ejemplo, entrenamos 75 000 modelos de redes neuronales que el año pasado eso es que es
Aproximadamente un modelo cada ocho minutos que se sabe que sale del equipo y luego los evaluamos en nuestro gran
grupos y luego enviamos 281 de esos modelos que realmente mejoran el rendimiento del automóvil
y este espacio de innovación está ocurriendo a lo largo de la pila del software de planificación
Infraestructura Las herramientas incluso contratando todo está progresando al siguiente nivel
El software FSG beta es bastante capaz de conducir el automóvil del que debería poder navegar
estacionamiento hasta estacionamiento manejo de la conducción de los CDC para los semáforos y las señales de parada
Negociar con objetos en las intersecciones que realizan giros, etc.
Todo esto proviene de las transmisiones de la cámara que pasan por nuestras redes neuronales que se ejecutan en el automóvil en sí mismo, es
no volver al servidor ni nada que ejecute en el automóvil y produce todas las salidas para formar el modelo mundial
alrededor del automóvil y el software de planificación impulsa el automóvil en función de eso
Hoy entraremos en muchos de los componentes que componen el sistema que la red de ocupación actúa como base
Capa de geometría del sistema Este es un video neural de múltiples cámaras
Red que de las imágenes predice la ocupación física completa del mundo alrededor
el robot así que cualquier cosa que esté físicamente presente árboles paredes edificios paredes de autos lo que
¿Tiene predecir si está presente específicamente, los predice junto con su movimiento futuro?
Además de este nivel base de geometría tenemos más capas semánticas para
Navegue por las carreteras necesitamos la lente, por supuesto, pero luego las carreteras tienen muchas
diferentes carriles y se conectan de todo tipo de formas, por lo que en realidad es un problema realmente difícil para la computadora típica
Técnicas de visión para predecir el conjunto de planos y sus conectividades, por lo que llegamos al lenguaje
Tecnologías y luego extraí el estado del arte de otros dominios y no solo la visión por computadora para hacer esta tarea
posible para los vehículos necesitamos su estado cinemático completo para controlarlos
Todo esto proviene directamente de las transmisiones de video de redes neuronales, las transmisiones de video crudas entran en las redes pasan por mucho
del procesamiento y luego genera el estado cinemático completo que posiciona las velocidades de aceleración Jerk todo eso
sale directamente de las redes con un procesamiento posterior mínimo que es realmente fascinante para mí porque cómo es
Esto incluso es posible en qué mundo vivimos en que esta magia es posible que estas redes predicen el cuarto
derivados de estas posiciones cuando la gente pensaba que ni siquiera podíamos detectar estos objetos
Mi opinión es que no llegó gratis, ¿requirió toneladas de datos, por lo que tuvimos un etiquetado automático un poco sofisticado?
Los sistemas que brillaban a través de los datos del sensor sin procesar ejecutan una tonelada de computa fuera de línea en el
Servidores puede tomar unas pocas horas en ejecución de redes neuronales caras destilan la información en etiquetas que entrenan nuestras
redes neuronales en el automóvil además de esto también usamos nuestro sistema de simulación para sintéticamente
crear imágenes y, dado que es una simulación, tenemos trivialmente todas las etiquetas
Todo esto pasa por una tubería de motores de datos bien engrasado donde primero
Entrena un modelo de línea de base con algunos datos envíelo al automóvil Vea cuáles son las fallas y una vez que conozca las fallas
Extraemos la flota para los casos en que falla proporcionan las etiquetas correctas y agregamos los datos al conjunto de capacitación.
Este proceso soluciona sistemáticamente los problemas y hacemos esto para cada tarea que se ejecuta en el automóvil
sí, y para entrenar estas nuevas redes neuronales masivas este año ampliamos nuestra infraestructura de capacitación por aproximadamente
40 a 50 por ciento, por lo que eso nos queda a unos 14 000 GPU hoy en múltiples
Capacitación de grupos en los Estados Unidos también trabajamos en nuestro compilador de IA que
ahora admite nuevas operaciones necesarias por esas redes neuronales y las asigna a la mejor de nuestro subyacente
Los recursos de hardware y nuestro motor de inferencia hoy en día son capaces de distribuir la ejecución de
una sola red neuronal en dos sistemas independientes en barcos esencialmente dos computadoras independientes interconectadas
Dentro de la simple computadora autónoma y, para hacer esto posible, tenemos que mantener un control estricto sobre el extremo a extremo
Latencia de este nuevo sistema, por lo que implementamos un código de programación más avanzado en la plataforma FSD completa
Todas estas redes neuronales que se ejecutan en el automóvil juntas producen el espacio vectorial, que nuevamente es el modelo del
El mundo alrededor del robot o el automóvil y luego el sistema de planificación opera además de esto, presentando trayectorias que
Evite las colisiones o el progreso suave hacia el destino utilizando una combinación de optimización basada en el modelo
más red neuronal que ayuda a optimizarlo para que sea realmente rápido
Hoy estamos realmente entusiasmados de presentar el progreso en todas estas áreas que tenemos los clientes potenciales de ingeniería que
Entra y explique estos diversos bloques y estos alimentan no solo el automóvil, sino que los mismos componentes también se ejecutan en Optimus
Robot que Milán mostró anteriormente con ese panel de bienvenido para comenzar a hablar sobre la sección de planificación
Hola a todos, soy parel articular, usemos este escenario de intersección para
Sumérgete directamente en cómo hacemos la planificación y la toma de decisiones en el piloto automático para que nos acercamos a esta intersección
Desde una calle lateral y tenemos que ceder ante toda la rectitud de los vehículos de cruce cuando estamos a punto de ingresar al
Intersección El peatón al otro lado de la intersección decide cruzar la carretera
Sin un cruce de peatones ahora necesitamos ceder a este rendimiento peatonal a los vehículos de la derecha y
También comprenda la relación entre el peatón y el vehículo en el otro lado de la intersección
Por lo tanto, muchas de estas dependencias intraobjetas que necesitamos resolver de una mirada rápida
y los humanos son realmente buenos en esto, vemos una escena, entiende que todas las interacciones posibles evalúan más
prometedores y generalmente terminan eligiendo uno razonable
Así que veamos algunas de estas interacciones que evaluó el sistema de piloto automático, podríamos haber ido frente a esto
peatones con un lanzamiento muy agresivo en un perfil lateral ahora obviamente estamos siendo un imbécil para el
Peatonal y asustaríamos al peatón y a su linda mascota podríamos haber avanzado lentamente
Para una brecha entre el peatón o el vehículo de la derecha nuevamente, estamos siendo un idiota al vehículo
Viniendo del derecho, pero no debe rechazar directamente esta interacción en caso de que esto solo esté disponible para la interacción segura
Por último, la interacción que terminamos eligiendo Mantenerse lento inicialmente encontrar lo razonable
Brecha y luego termina la maniobra después de que pasen todos los agentes
Ahora la evaluación de todas estas interacciones no es trivial, especialmente cuando le importa modelar
Las derivadas de orden superior para otros agentes, por ejemplo, ¿cuál es el longitudinal?
Jerk requerido por el vehículo que viene de la derecha cuando afirma que se basa únicamente en las verificaciones de colisión con
Las predicciones modulares solo lo llevarán tan lejos porque se perderá muchas interacciones válidas
Esto básicamente se reduce a resolver un problema de planificación de trayectoria conjunta de múltiples agentes sobre las trayectorias del ego y
Todos los demás agentes ahora cuánto optimiza, habrá un límite para lo rápido que pueda
Ejecute este problema de optimización, estará cerca del orden de 10 milisegundos incluso después de muchas aproximaciones incrementales
Ahora para una típica izquierda impredecible típica, dice que tiene más de 20 objetos cada uno
El objeto que tiene múltiples modos futuros diferentes, el número de combinaciones de interacción relevantes explotará
Nosotros, el planificador, debemos tomar una decisión cada 50 milisegundos, entonces, ¿cómo resolvemos esto en tiempo real?
Confiamos en un marco de lo que llamamos como búsqueda de interacción, que es básicamente una investigación paralela sobre un montón de
Trayectorias de maniobra El espacio de estado aquí corresponde al estado cinemático del ego el cinemático
Estado de otros agentes las predicciones multimodales múltiples nominales futuras y todas las entidades estáticas en la escena
El espacio de acción es donde las cosas se ponen interesantes, usamos un conjunto de trayectoria de maniobra
candidatos para ramificarse en un montón de decisiones de interacción y también objetivos incrementales para un mayor
Horizon Maniouver Vamos a atravesar esta investigación muy rápidamente para tener una idea de cómo funciona
Comenzamos con un conjunto de mediciones de visión, a saber, la ocupación de carriles, los objetos en movimiento se representan como
Extracciones escasas, así como características latentes, usamos esto para crear un conjunto de meta
Los candidatos se vuelven nuevamente desde la red de carriles o regiones no estructuradas que corresponden a
Una máscara de probabilidad derivada de manifestaciones humanas una vez que tenemos un montón de estos oro
Candidatos creamos trayectorias de semillas utilizando una combinación de enfoques de optimización clásica, así como nuestros
Network Planner nuevamente capacitado en los datos de la alimentación del cliente ahora una vez que obtenemos un montón de estos gratis
Trayectorias Los usamos para comenzar a ramificarse en las interacciones que encontramos la interacción más crítica
En nuestro caso, esta sería la interacción con respecto al peatón si afirmamos delante o cedimos a ella.
Obviamente, la opción a la izquierda es una opción de penalización alta que probablemente no se priorice, por lo que nos ramificamos más
La opción a la derecha y ahí es donde traemos más y más interacciones complejas que construyen esta optimización
problema incrementalmente con más y más restricciones y esa investigación sigue fluyendo ramificando más interacciones en ramificación
En más objetivos ahora, muchos trucos aquí se encuentran en la evaluación de cada uno de estos nodo.
de la investigación dentro de cada nodo inicialmente comenzamos a crear
Trayectorias que utilizan enfoques de optimización clásica donde las restricciones como describí se agregarían de forma incremental
Y esto llevaría cerca de uno a cinco milisegundos por acción ahora, aunque esto es bastante bueno
número cuando desea evaluar más de 100 interacciones, esto no escala
Así que terminamos construyendo redes de consultas livianas que puede ejecutar en el bucle del planificador
Estas redes están entrenadas en manifestaciones humanas de la flota, así como solucionadores fuera de línea con límites de tiempo relajados.
Con esto pudimos reducir el tiempo de ejecución del resumen para cerrar 200 microsegundos por acción
Ahora hacer esto solo no es suficiente porque todavía tienes esta investigación masiva que necesitas ir
a través y debe podar eficientemente el espacio de búsqueda para que deba hacer una puntuación en cada
De estas trayectorias, pocas de estas son bastante estándar, realiza un montón de verificaciones de colisión, realiza un montón de análisis de comodidad, ¿cuál es el idiota y el idiota?
realmente requerido para una maniobra determinada, los datos de la flota de clientes juegan un papel importante aquí nuevamente
Ejecutamos dos conjuntos de redes variables nuevamente livianas, ambas realmente aumentamos entre sí una de ellas entrenadas de
intervenciones de la flota beta de FST que da una puntuación sobre qué probable es una maniobra dada para dar como resultado
intervenciones en los próximos segundos y segundo, lo cual se realiza puramente en demostraciones humanas de datos impulsados por humanos
Una puntuación sobre qué tan cerca está su acción seleccionada a una trayectoria impulsada por humanos
La puntuación nos ayuda a podar el espacio de búsqueda seguir ramificando aún más las interacciones y enfocar el cálculo en
Los resultados más prometedores son la parte genial de esto
La arquitectura es que nos permite crear una combinación genial entre los enfoques de UH impulsados por los datos donde usted
No tiene que confiar en muchos costos diseñados a mano, pero también lo fundamentos en realidad con cheques basados en la física
Ahora mucho de lo que describí fue con respecto a los agentes que pudimos observar en la escena, pero lo mismo
Marco se extiende a objetos detrás de oclusiones Usamos la alimentación de video de ocho cámaras
Para generar la ocupación 3D del mundo, la máscara azul aquí corresponde al
región de visibilidad que lo llamamos básicamente se bloquea en el primero
oclusión que ves en la escena que consumen esta máscara de visibilidad para generar lo que llamamos como objetos fantasmas que
Puede ver en la parte superior izquierda ahora si modela las regiones de engendros y las transiciones estatales de este fantasma
objetos correctamente si ajusta su respuesta de control como un
Función de esa probabilidad de existencia de que puedes extraer algunos comportamientos humanos realmente agradables
Ahora lo pasaré para llenar para describir más sobre cómo generamos estas redes de ocupación
Hola chicos, mi nombre es Phil uh, compartiré los detalles de la red de ocupación que construimos durante el año pasado
Esta red es nuestra solución para modelar el trabajo físico en 3D alrededor de nuestros automóviles y actualmente no se muestra en nuestro
La visualización que enfrenta el cliente y lo que veremos aquí es la salida de la red de carreteras de nuestra herramienta de desarrollo interno
La red de ocupación toma transmisiones de video de todas nuestras 80 cámaras, ya que la entrada produce una sola volumétrica unificada
Ocupación en el espacio vectorial directamente para cada ubicación 3D alrededor de nuestro automóvil
predice la probabilidad de que esa ubicación esté ocupada mucho ya que tiene contactos de video, es
capaz de predecir obstáculos que se ocluyen instantáneamente
Para cada ubicación también produce un conjunto de semánticas como el peatón de la carroería
y escombros bajos como codificados por color aquí
El flujo de ocupación también se predice para el movimiento ya que el modelo es una red generalizada
No le dice a los objetos estáticos y dinámicos explícitamente que es capaz de producir y
Modele los movimientos aleatorios como el entrenador de desvanecimiento aquí
Esta red se ejecuta actualmente en todos los Teslas con computadoras FSD y es
Corre increíblemente eficiente alrededor de cada 10 milisegundos con nuestro acelerador neural
Entonces, ¿cómo funciona este trabajo? Echemos un vistazo a la arquitectura primero que rectificamos las imágenes de cada cámara con
La calibración de la cámara y las imágenes se mostraron aquí se dieron a la red que en realidad no es
La típica imagen RGB de 8 bits como puede ver en las primeras imágenes en la parte superior que estamos
Dar la imagen de la cuenta fotográfica de 12 bits a la red ya que tiene cuatro
bits más información tiene 16 veces mejor rango dinámico y reducido
latencia ya que ya no tenemos el ISP incorrecto en Adobe, usamos un conjunto de registros y de regreso con
FPS como columna vertebral para extraer las características del espacio de imágenes A continuación, construimos un conjunto de posición 3D
consulta junto con las características del espacio IMG ya que las teclas y los valores se ajustan a un módulo de atención
La salida del módulo de atención son las características espaciales de alta dimensión
Estas características especiales se alinean temporalmente utilizando odometría del vehículo
para derivar el movimiento durar estas características temporales espaciales van
a través de un conjunto de convolución D para producir la salida final de la ocupación y el flujo de ocupación
se forman como gris boxer de tamaño fijo que podría no ser lo suficientemente preciso para planificar el control
Para obtener una resolución más alta, también producimos mapas de características por vóxel que se alimentarán con MLP con 3D espacial
Consultas de puntos para obtener posición y semántica en cualquier ubicación arbitraria
Después de conocer mejor el modelo, echemos un vistazo a otro ejemplo aquí, tenemos un autobús articular estacionado a lo largo
fila lateral resaltada como un boxeador en forma de L aquí a medida que nos acercamos al bus comienza a
Mueva el azul La parte delantera del carro se vuelve azul primero, lo que indica que el modelo predice que el bus frontal tiene un cero hacia abajo
El flujo de ocupación y el S-Bus siguen moviendo todo el bus se vuelve azul
y también puede ver que la red predice la curvatura precisa del bus
Bueno, este es un problema muy complicado para la red tradicional de detección de objetos, ya que tiene que ver si voy a
Use un cuboide o tal vez un dos para adaptarse a la curvatura pero para la red de ocupación
Dado que todo lo que nos importa es la ocupación en el espacio visible y podremos modelar la curvatura con precisión
Además de la calificación de vóxel, la red de ocupación también produce una superficie manejable
La superficie manejable tiene tanto geometría 3D como semántica, son muy útiles para el control, especialmente en la curación.
y los caminos curvos de la superficie y el vóxel gris no se predicen independientemente en su lugar el
Voxel Grid en realidad se alinea con la superficie implícitamente aquí estamos en una búsqueda de héroes donde tú
puede ver la geometría 3D de la superficie que se predice muy bien
El planificador puede usar esta información para decidir tal vez que necesitemos reducir la velocidad más para el Hillcrest y, como puede también,
ver el grado de vóxel se alinea con la superficie de manera consistente
Además de la fuente de la caja y la superficie, también estamos muy entusiasmados con el reciente avance en el campo de lecturas neuronales o
Nerf estamos investigando a ambos incorporando algunas de las características del color de la luz en
Capacitación en red de ocupación, así como el uso de nuestra salida de red como estado de entrada para NERF
De hecho, Ashok está muy entusiasmado con esto, este ha sido su proyecto de fin de semana personal de UH por un tiempo
sobre estos nervios porque creo que la academia está construyendo muchos de estos
Modelos de base uh para lenguaje que usan toneladas de grandes conjuntos de datos para el lenguaje, pero creo que para los nervios de la visión
proporcionarán los modelos de base para la visión por computadora porque se basan en geometría y geometría
nos da una buena manera de supervisar estas redes y congelaciones del requisito de definir una ontología y el
La supervisión es esencialmente gratuita porque solo tienes que representar estas imágenes de manera diferencial, así que creo que en el futuro esto
idea de la red de ocupación en la que sabes que entran las imágenes y luego la red produce una consistente
Representación volumétrica de la escena que luego se puede representar diferencialmente en cualquier imagen que se observara i I I
Personalmente creo que es un futuro de la visión por computadora y sabes que hacemos un trabajo inicial en ello en este momento, pero yo
Piense en el futuro tanto en Tesla como en la academia veremos que estos
Combinación de predicción de una sola vez de la ocupación volumétrica Uh será eso
mi apuesta personal sexual, así que aquí hay un ejemplo de resultado temprano de un
Reconstrucción 3D de nuestros datos gratuitos en lugar de centrarse en obtener una reproyección perfecta de RGB en el espacio de imágenes nuestro
El objetivo principal aquí es representar con precisión el espacio 3D de advertencias para conducir y queremos hacer esto para todos
Nuestros datos gratuitos sobre el mundo en todo clima y condiciones de iluminación y obviamente este es un muy desafiante
problema y estamos buscando ustedes para ayudar a finalmente a la red de ocupación.
con un gran conjunto de datos de nivel automático sin humano en el bucle y con eso pasaré a Tim para hablar
sobre lo que se necesita para entrenar esta red Gracias Phil
[Aplausos] Muy bien Hola a todos hablemos de alguna capacitación
Infraestructura, así que hemos visto un par de videos que conoces cuatro o cinco, creo y me importa
más y preocuparte más por muchos más clips en eso, así que hemos estado mirando
Las redes de ocupación solo de Phil solo llenan videos, se necesitan 1.400 millones
marcos para entrenar a esa red lo que acaba de ver y si tiene cien mil GPU uh, tomaría una hora
Pero si tienes una GPU, tomaría cien mil horas, así que eso no es
un período de tiempo humano que puede esperar a que su trabajo de entrenamiento funcione bien, queremos enviarlo más rápido que eso para que
significa que tendrá que ir paralelo, por lo que necesita un más cómputo para eso, eso significa que necesitará un
supercomputadora, así que es por eso que hemos construido tres supercomputadoras que comprenden
de 14 000 GPU donde usamos 10 000 GPU para entrenamiento y alrededor de cuatro mil
GPU para el etiquetado automático Todos estos videos se almacenan en 30 petabytes de un video administrado distribuido
caché no debe pensar en nuestros conjuntos de datos como fijos, digamos mientras piensa en su
Imagenet o algo que conoces con un millón de marcos que debes pensar en ello como una cosa muy fluida, así que tenemos un
Medio millón de estos videos fluyen dentro y fuera de este clúster estos clústeres todos los días
Y seguimos 400 000 de este tipo de instancias de video de Python cada segundo
Entonces, son muchas llamadas que necesitaremos para capturar eso para gobernar las políticas de retención de esto.
Cache de video distribuido, así que todo esto es una gran cantidad de infra, todo lo cual construimos y administramos
en el hogar para que no puedas comprar, conoces 40 000
GPU y luego 30 petabytes de flash mvme y simplemente armarlo y vamos a entrenar en realidad, en realidad toma mucho de
trabajar y voy a entrar en un poco de eso lo que realmente quieres hacer es que quieres tomar tu acelerador así
que podría ser la GPU o el dojo del que hablaremos más tarde y porque ese es el más caro
componente ahí es donde desea poner su cuello de botella y eso significa que cada parte de su sistema está
necesitará superar a este acelerador y eso es realmente complicado que
significa que su almacenamiento necesitará tener el tamaño y el ancho de banda para entregar todos los datos a los nodos
Estos nodos deben tener la cantidad correcta de CPU y capacidades de memoria para alimentar su aprendizaje automático.
Marco Este marco de aprendizaje automático luego debe entregarlo a su GPU y luego puede comenzar a entrenar, pero luego usted
Necesita hacerlo en cientos o miles de GPU de manera confiable en
logstap y de una manera que también es rápida, por lo que también necesitará una interconexión extremadamente complicada, hablaremos más
sobre el dojo en un segundo, así que primero quiero llevarte a algunos
Optimizaciones que hemos hecho en nuestro clúster, así que estamos recibiendo muchos videos y
El video es muy diferente a Dither Dither Training on Images o Text, que creo que es muy bien establecido, el video es bastante
Literalmente, una dimensión más complicada um, y por eso necesitábamos terminar
Para terminar desde la capa de almacenamiento hasta el acelerador y optimizar cada pieza de eso porque entrena en el recuento de fotones
Videos que provienen directamente de nuestra flota Entrenamos en aquellos directamente que no publicamos el proceso de los que
La forma en que se acaba de hacer es que buscamos exactamente los cuadros que seleccionamos para nuestro lote, cargamos los que incluyen la inclusión del
marcos de los que dependen, por lo que estos son sus iframes o sus fotogramas clave, los empaquetamos, los mueven a compartir
memoria muévalos a una barra doble de la GPU y luego use el decodificador de hardware que solo se acelera a
En realidad, decodifique el video, así que hacemos eso en la GPU de forma nativa y todo esto está en una muy bonita extensión de Python Pytorch
Hacerlo desbloqueó más de 30 aumento de la velocidad de entrenamiento para las redes de ocupación y liberó básicamente todo un conjunto
CPU para hacer cualquier otra cosa, no puedes simplemente entrenar con solo
videos, por supuesto, necesitas algún tipo de verdad terrestre y uh que en realidad es un problema interesante y el
El objetivo de almacenar la verdad de su tierra es que desea asegurarse de llegar a la verdad de su tierra que necesita en el
cantidad mínima de operaciones del sistema de archivos y carga en el tamaño mínimo de lo que necesita para optimizar para agregarse
Cross Cluster rendimiento porque debería ver un clúster de cómputo como un dispositivo grande que ha solucionado internamente
restricciones y umbrales, así que para esto lanzamos un formato que
es nativo de nosotros que se llama pequeño, usamos esto para nuestra verdad terrestre, nuestra caché de características y cualquier salida de inferencia
Así que muchos tensores que están allí, y solo la caricatura aquí, digamos que estas son tu mesa, es tu mesa que tú
quiero almacenar, entonces así es como se vería si se desplomara en el disco, así que lo que hace es tomar cualquier cosa que pueda
Desea indexar, por ejemplo, las marcas de tiempo de video que las pone todas en el encabezado para que en su encabezado inicial
Lea que sabes exactamente a dónde ir en el disco, entonces, si tienes tensores, ¿vas a intentar transponer el
dimensiones para poner una dimensión diferente al final como la dimensión contigua y luego también pruebe diferentes tipos de
compresión, entonces mira cuál era el más óptimo y luego almacena ese es realmente un gran paso si lo hace
La salida ininteligible de la red de almacenamiento en caché de la red de aprendizaje automático gira alrededor del
Dimensiones Un poco, puede obtener hasta 20 aumento en la eficiencia del almacenamiento y luego cuando almacenamos que también
ordenó las columnas por tamaño para que todas sus columnas pequeñas y valores pequeños estén juntas para que cuando busque un
Valor único es probable que se superponga con una lectura sobre más valores que usará más tarde para que no necesite hacer
Otra operación del sistema de archivos para poder seguir y seguir, seguí
Tocados en dos proyectos que tenemos internamente, pero esto es en realidad parte de un gran esfuerzo continuo para optimizar el
Calcule que tengamos en la casa tan acumulando y agregando a través de todas estas optimizaciones que ahora entrenamos nuestras
Redes de ocupación el doble de rápido solo porque es el doble de eficiente y ahora si agregamos más cómputo y vamos
Paralelo no podemos entrenar esto en horas en lugar de días y con eso me gustaría entregarlo a
El mayor usuario de Compute John
Hola a todos, mi nombre es John Emmons, lidero el equipo de visión de piloto automático. Voy a cubrir dos temas contigo
Hoy, el primero es cómo predecimos los carriles y el segundo es cómo predecimos el comportamiento futuro de otros agentes en el camino
En los primeros días del piloto automático modelamos el problema de detección de carril como una tarea de segmentación instantánea de espacio de imagen
Nuestra red era súper simple, aunque, de hecho, solo era capaz de imprimir carriles de unos pocos tipos diferentes de
geometrías específicamente segmentaría el carril de águila que podría segmentar adyacente
carriles y luego tenía una carcasa especial para horquillas y fusiona este modelado simplista del problema
trabajó para carreteras altamente estructuradas como carreteras, pero hoy estamos tratando de construir un sistema
Eso es capaz de maniobras mucho más complejas específicamente, queremos hacer giros izquierdo y derecho en las intersecciones
donde la topología del camino puede ser un poco más compleja y diversa cuando intentamos aplicar este modelado simplista del
problema aquí, se rompe totalmente retrocediendo por un momento lo que
Estamos tratando de hacer aquí es predecir el conjunto de instancias poco convincentes en su conectividad y lo que queremos hacer es tener un
red neuronal que básicamente predice este gráfico donde los nodos son los segmentos de carril y los bordes codifican el
Conectividades entre estos carriles Entonces, lo que tenemos es nuestra detección de carril
red neuronal está compuesto por tres componentes en el primer componente tenemos un conjunto de
Capas convolucionales Capas de atención y otras capas de redes neuronales que codifican las transmisiones de video de nuestras ocho
cámaras en el vehículo y producir una rica representación visual
Luego mejoramos esta representación digital con un grueso mapa de nivel de ruta de ruta que codificamos con los que codificamos
Un conjunto de capas de red neuronales adicionales que llamamos el módulo de guía de carril Este mapa no es un mapa HD, sino que
proporciona una gran cantidad de sugerencias útiles sobre la topología de los carriles dentro de las intersecciones que el carril cuenta en varios caminos y un conjunto de otros atributos que
Ayúdenos los dos primeros componentes aquí produjeron un
Tensor denso que codifica el mundo, pero lo que realmente queremos hacer es convertir este denso tensor en un
conjunto inteligente de carriles en sus conectividades abordamos este problema como una imagen
subtítulos la tarea donde la entrada es este tensor denso y el texto de salida se predice en un lenguaje especial que
Desarrollamos en Tesla para codificar carriles en sus conectividades en este idioma de carriles las palabras y
Las fichas son las posiciones de carril en el espacio 3D en el pedido de los tokens introducidos en los tokens
codifica las relaciones conectivas entre estos carriles modelando la tarea como un idioma
Problema Podemos capitalizar las recientes arquitecturas y técnicas autorregresivas de la comunidad lingüística para manejar los múltiples
Modalidad del problema no solo estamos resolviendo el problema de la visión por computadora en el piloto automático también estamos aplicando el estado del arte y
Modelado de idiomas y aprendizaje automático en general, ahora ahora voy a sumergirme en un poco más de detalle este componente de idioma
Lo que he representado en la pantalla aquí es la imagen satelital que representa el área local alrededor del
Vehículo El conjunto de bordes de nariz es a lo que nos referimos como el gráfico de carril y, en última instancia, es lo que queremos salir de este neuronal
red comenzamos con una pizarra en blanco que vamos a querer hacer nuestra primera
Predicción aquí en este punto verde Esta posición de puntos verdes está codificada como
Un índice en una cuadrícula de curso que discretiza el mundo 3D ahora no predecimos este índice directamente
Debido a que sería demasiado costoso de hacerlo, hay demasiados puntos de cuadrícula y predecir una categórica
La distribución sobre esto tiene ambas implicaciones en el tiempo de entrenamiento y el tiempo de prueba, por lo que, en cambio, lo que hacemos es descriptar el
Mundo grueso primero predecimos un mapa de calor sobre las posibles ubicaciones y luego nos aferramos a la ubicación más probable
En esto luego refinamos la predicción y obtenemos el punto preciso
Ahora sabemos dónde es la posición de este token, no sabemos su tipo en este caso, aunque es el comienzo de un nuevo
Lane, así que lo abordamos como un token de inicio y porque es una ficha estrella, no hay
Atributos adicionales en nuestro idioma luego tomamos las predicciones de este primer pase hacia adelante y los codificamos
Uso de una incrustación adicional aprendida que produce un conjunto de tensores que combinamos juntos
que en realidad es la primera palabra en nuestro idioma de carriles, agregamos esto a la primera posición que conoce en nuestra oración aquí
Luego continuamos este proceso imprimiendo el próximo punto de carril de manera similar.
Ahora este punto de carril no es el comienzo de un nuevo carril, en realidad es una continuación del carril anterior.
Entonces, es un tipo de token de continuación, ahora no es suficiente saber que
Este carril está conectado al plano previamente protegido que queremos codificar su geometría precisa que hacemos por
Regresando un conjunto de coeficientes de spline, luego tomamos este carril, lo codificamos
nuevamente y agrégalo como la siguiente palabra en la oración, continuamos prediciendo estos carriles de continuación hasta llegar al
Fin de la cuadrícula de predicción luego pasamos a un segmento de carril diferente para que pueda ver que Cyan Dot allí ahora
Es no está topológicamente conectado a ese punto rosa, en realidad está bifurcando que el azul lo siento, el verde
Punta allí, así que tiene un tipo de bifurcado y tokens de horquilla
en realidad señala los tokens anteriores de los que se origina el bifurcado para que usted
Puede ver aquí el predictor del punto de la bifurcación es en realidad el índice cero, por lo que en realidad está haciendo referencia a los tokens que ya está predicho como lo haría en
lenguaje continuamos este proceso una y otra vez hasta que hemos enumerado todo el
Tokens en el gráfico Ling y luego la red predice el final de la oración del token
Sí, solo quiero notar que la razón por la que hacemos esto no es solo porque queremos construir algo complicado, es
Sin embargo, casi se siente como una máquina completa de Turing con redes neuronales es que probamos enfoques simples para
Ejemplo uh tratando de segmentar los carriles a lo largo del camino o algo así, pero el problema es cuando
Hay incertidumbre que dice que no puede ver el camino claramente y podría haber dos carriles o tres carriles y no se puede decir
Un enfoque basado en segmentación simple simplemente dibujaría a ambos es una especie de situación de 2.5 carriles y la
El algoritmo de procesamiento posterior fallaría hilarantemente cuando las predicciones son tales, sí, los problemas no terminan allí quiero decir
Debe predecir estas condiciones conectivas como estos carriles conectivos dentro de las intersecciones que simplemente no es posible con el enfoque que
Ashok menciona por eso que tuvimos que actualizar a este tipo de superposiciones como esta segmentación se volvería loca, pero incluso si te esfuerzas mucho
Sabes ponerlos en capas separadas, es un problema realmente difícil qué lenguaje solo ofrece un marco realmente agradable para obtener modernos.
Muestra de un posterior en lugar de saber que tratar de hacer todo esto en el procesamiento posterior
Pero esto en realidad no se detiene para solo el piloto automático, John, esto se puede usar para Optimus nuevamente, ¿sabes que supongo que no lo serían?
Llamado carriles, pero te imaginas que sabes en esta etapa, ya sabes aquí, es posible
Lugares en los que la gente podría caminar, sí, es básicamente si estás en una fábrica o en un entorno casero
Puede preguntarle al robot ok, déjame hablar con la cocina o por favor enruta a algún lugar en la fábrica
Y luego predecimos un conjunto de caminos que sabrían pasar por los pasillos, tome el robot y digamos bien esto
es cómo llegas a la cocina, realmente nos da un buen marco para modelar estas diferentes rutas que simplifican el problema de la navegación o el
Planificador posterior está bien, así que en última instancia lo que obtenemos de
Esta red de detección de carriles es un conjunto de carriles en sus conectividades que proviene directamente de la red allí hay
No hay un paso adicional aquí para la simplificación de estos, conoces predicciones densas en las indisputas
Esta es solo una salida directa sin filtrar de la red
Está bien, así que hablé un poco sobre carriles, voy a tocar brevemente cómo modelamos y predecimos los caminos futuros en
Otra semántica sobre objetos, así que voy a ir muy rápido a través de dos ejemplos del video en el
Justo aquí tenemos un automóvil que en realidad está ejecutando una luz roja y girando frente a nosotros lo que hacemos para manejar
situaciones como esta es que predecimos un conjunto de trayectorias futuras de horizonte de tiempo corto en todos los objetos que podemos usar
Estos para anticipar la situación peligrosa aquí y aplicar lo que sabe que se requiere frenado y acción de dirección para evitar una colisión
En el video a la derecha hay dos vehículos frente a nosotros, el que está en el carril izquierdo está estacionado aparentemente es
Al ser cargado descargado, no sé por qué el conductor decidió estacionar allí, pero lo importante es que nuestra red neuronal predijo que se detuvo
que es el color rojo allí el vehículo en el otro carril, ya que nota que también es estacionario, pero ese es uno
Obviamente, solo esperar que esa luz roja se vuelva verde, por lo que a pesar de que ambos objetos son estacionarios y tienen una velocidad cero, es la semántica la que es
muy importante aquí para que no nos quedemos atrapados detrás de ese auto incómodo estacionado
La predicción de todos estos atributos de agente presenta algunos problemas prácticos al tratar de construir un sistema en tiempo real
Necesitamos maximizar la velocidad de cuadro de nuestra pila de sección de objeto para que el piloto automático pueda reaccionar rápidamente al entorno cambiante
Cada milisegundo realmente importa aquí para minimizar la latencia de inferencia, nuestra red neuronal se divide en dos fases
En la primera fase identificamos ubicaciones en el espacio 3D donde existen agentes
En la segunda etapa luego sacamos tensores en esas ubicaciones 3D lo agregan con datos adicionales que están en el
vehículo y luego sabemos que el resto del procesamiento de este paso de especificación permite el
Red neuronal para enfocar el calcular en las áreas que más importan, lo que nos brinda un rendimiento superior por una fracción del costo de latencia
Entonces, ponerlo todo junto, la pila de visión del piloto automático predice más que la geometría y la cinemática de
El mundo también predice un rico conjunto de semánticas que permite una conducción segura y humana
No voy a entregar las cosas a la calle, nos diremos cómo ejecutamos todas estas redes neuronales geniales en nuestra computadora FSD gracias
[Aplausos]
Hola a todos, hoy soy SRI, voy a dar una idea de lo que se necesita para ejecutar estas redes FSC en el
auto y cómo optimizamos para la latencia de inferencia uh hoy me voy a centrar solo en el
Red FSG Lanes de la que John acaba de hablar
Entonces, cuando comenzó esta pista, queríamos saber si podemos ejecutar esta red de carriles FSC de forma nativa en el motor de viaje
cuál es nuestro acelerador interno de red neuronal que construimos en la computadora FSD
Cuando construimos este hardware, lo mantuvimos simple y nos aseguramos de que pueda hacer uno
Cosa Ridículamente rápidos productos densos densos, pero esta arquitectura es automática
regresivo e iterativo donde se cruza a través de múltiples bloques de atención en el bucle interno
producir puntos escasos directamente en cada paso para que el desafío aquí fue cómo
¿Podemos hacer esta predicción de punto de análisis y un cálculo escaso en un motor de producto de punto denso? Veamos cómo hicimos esto
en el viaje para que la red predice el mapa de calor de
Las ubicaciones espaciales más probables del punto ahora hacemos un arco max y uno
Operación cardíaca que proporciona la única codificación del índice de la ubicación espacial
Ahora necesitamos seleccionar la incrustación asociada con este índice de una tabla de incrustación que se aprende durante
Entrenamiento para hacer esto en el viaje, en realidad construimos una mesa de búsqueda en SRAM y diseñamos
Las dimensiones de esta incrustación de tal manera que pudiéramos lograr todo esto con solo multiplicación de matriz
no solo que también queríamos almacenar esta incrustación en un caché de tokens, así que
que no recomputamos esto por cada iteración, sino que lo reutilizamos para la predicción de puntos futuros nuevamente, retiramos algunos
Trucos aquí donde hicimos todas estas operaciones solo en el motor de producto DOT, en realidad es genial que nuestro equipo
Encontré formas creativas de mapear todas estas operaciones en el motor de viaje de maneras
que ni siquiera se imaginaron cuando se diseñó este hardware, pero eso no es lo único que tenemos que
hacer para hacer este trabajo, realmente implementamos muchas operaciones y características para hacer este modelo
compilable para mejorar la precisión de la admisión, así como para optimizar el rendimiento
Todas estas cosas nos ayudaron a ejecutar el modelo de parámetros de 75 millones de poco menos de 10
milisegundo de latencia que consume solo 8 vatios de potencia
Pero esta no es la única arquitectura que se ejecuta en el automóvil, hay tantos otros módulos y redes de arquitecturas
Necesitamos correr en el automóvil para dar una sensación de escala, hay alrededor de mil millones de parámetros de todas las redes
Combinada produciendo alrededor de 1000 señales de red neuronal, por lo que debemos asegurarnos
Los optimizamos conjuntamente y de tal manera que maximizemos el cómputo
Rendimiento de utilización y minimizar la latencia para que construimos un compilador solo para neuronal
redes que comparte la estructura a los compiladores tradicionales, como puede ver, toma el enorme
Gráfico de redes neuronales con nodos de 150k y 375k conexión toma esto
Los dividen en subgraphs independientes y com obliga a cada uno de esos
subgraphs de forma nativa para los dispositivos de inferencia, entonces tenemos una red neuronal
Enlace que comparte la estructura con el enlazador tradicional donde realizamos esta optimización de tiempo de enlace
Allí resolvemos un problema de optimización fuera de línea para la memoria de cómputo y la memoria
Restricciones de ancho de banda para que venga con un horario optimizado que se ejecuta en el automóvil
En el tiempo de ejecución, diseñamos un sistema de programación híbrido que básicamente hace
Programación heterogénea en un SOC y una programación distribuida en ambos SOC para ejecutar estas redes en un modelo
moda paralela para obtener 100 gotas de utilización de cómputo necesitamos optimizar en todos los
Capas de software desde el ajuste de la arquitectura de red todo el compilador
la forma de implementar un enlace RDMA de ancho de banda alto de baja latencia en tanto de los SRC como de hecho aún más profundos para
Comprender y optimizar las rutas de datos coherentes y no coherentes del caché del acelerador en el SOC Esto es mucho
de optimización en todos los niveles para asegurarnos de que obtengamos la velocidad de cuadro más alta y a medida que cada milisegundo cuenta
aquí y esto es esto es solo el es el
Visualización de las redes neuronales que se ejecutan en el automóvil Este es nuestro cerebro digital esencialmente como puede ver
Estas operaciones no son más que la convolución de multiplicación de matriz, por nombrar algunas operaciones reales que se ejecutan en el automóvil.
Para entrenar o entrenar esta red con mil millones de parámetros, necesita muchos datos etiquetados para que Aegon hablará
sobre cómo logramos esto con la tubería de etiquetado automático
Gracias uh gracias Sherry
Hola a todos, soy Jurgen Zhang y lidero una visión geométrica en AutoPilot
Así que sí, hablemos de etiquetado automático
Así que tenemos varios tipos de todos los marcos de etiquetado para admitir varios tipos de redes, pero hoy me gustaría
Concéntrese en la red de carriles increíbles aquí para entrenar y generalizar con éxito
Esta red de todas partes donde creemos que fuimos decenas de millones de viajes
probablemente un millón de intersección o incluso más
entonces cómo hacer eso para que ciertamente sea posible para obtener suficiente
cantidad de viajes porque ya hemos explicado como Tim anteriormente ya tenemos como 500 000 viajes por día de efectivo
Sin embargo, UM, sin embargo, convertir todos esos datos en un formulario de capacitación es un problema técnico muy desafiante
Para resolver este desafío, probamos varias formas de etiquetado manual y automotriz, así que de
La primera columna al segundo desde el segundo a la tercera cada avance nos proporcionó casi 100 veces la mejora en
rendimiento, pero aún así, ganamos una máquina de etiquetado automático aún mejor que puede proporcionar
Proporcionar a los proveedores diversidad y escalabilidad de buena calidad
Para cumplir con todos estos requisitos, a pesar de la gran cantidad de esfuerzo de ingeniería requerido aquí, hemos desarrollado un
nueva máquina de etiquetado de pedidos alimentada por la reconstrucción de múltiples tribus para que esto pueda reemplazar 5 millones de horas de
Etiquetado manual con solo 12 horas en el clúster para etiquetar 10 000 viajes
Entonces, cómo resolvimos hay tres grandes pasos, el primer paso es la trayectoria de alta precisión y la recuperación de la estructura de
Odometría de inercia visual de múltiples cámaras, por lo que aquí aquí se infieren todas las características, incluida la superficie del suelo, de los videos
por redes neuronales luego rastreado y reconstruido en el espacio vectorial
Entonces, la tasa de deriva típica de esta trayectoria en el automóvil es como 1.3 centímetro
por metro y 0.45 mili radian por metro, que es bastante decente, considerando su cómputo compacto
requisito que el servicio de recuperación y los detalles en bruto también se utilizan como un fuerte
Orientación para el paso de verificación manual posterior Esto también está habilitado en cada FSD
vehículo, por lo que obtenemos trayectorias y estructuras preprocesadas junto con los datos del viaje
El segundo paso es la reconstrucción multi-2, que es la pieza grande y central de esta máquina.
Entonces, el video muestra cómo se reconstruye y alinee el viaje previamente mostrado.
con otros viajes básicamente otros viajes de diferentes personas que no son del mismo vehículo, por lo que esto lo realiza múltiples
Pasos de Internet, como la alineación del curso, la optimización de la junta de combinación de pares y luego el refinamiento de la superficie más
Al final, el analista humano entra y finaliza la etiqueta
Entonces, cada pasos felices ya está completamente paralelo en el clúster para que el
todo el proceso generalmente lleva solo un par de horas
El último paso es realmente etiquetar automáticamente los nuevos viajes, así que
Aquí usamos el mismo motor de alineación de múltiples viajes, pero solo entre la reconstrucción preconstruida y cada nuevo
viaje, por lo que es mucho más simple que reconstruir completamente todos los clips por completo
Por eso solo lleva 30 minutos por viaje a otra etiqueta en lugar de manual
varias horas de etiquetado manual y esta es también la clave de escalabilidad
de esta máquina esta máquina escala fácilmente mientras
tener datos de cómputo y viaje disponibles, por lo que alrededor de 50 árboles fueron recién ordenados
etiquetado de esta escena y algunos de ellos se muestran aquí, así que 53 de diferentes vehículos
Así que así es como capturamos y transformamos las rodajas de espacio-tiempo del mundo en
La supervisión de la red, sí, una cosa que me gusta tener en cuenta es que nuevamente solo habló sobre cómo estamos automáticamente
etiqueta nuestros carriles, pero tenemos trabajadores automáticos para casi todas las tareas que hacemos, incluido nuestro planificador y muchos de
Estos son completamente automáticos como los humanos involucrados, por ejemplo, para objetos u otras cinemáticas, las formas sus
Futuros todo solo proviene del etiquetado automático y lo mismo es cierto para la ocupación también y realmente tenemos solo
construyó una máquina alrededor de esto, sí, así que si puedes regresar una diapositiva, no una más
Dice paralelo en el clúster, así que eso suena bastante sencillo pero
Realmente no era um tal vez es divertido compartir cómo se produce algo como esto, así que hace un tiempo no teníamos ninguna
etiquetado automático en absoluto y luego alguien hace un guión, comienza a funcionar, comienza a funcionar mejor hasta llegar a un
volumen que es bastante alto y claramente necesitamos una solución, por lo que había otros dos ingenieros en
Nuestro equipo que fue como si supieras que es interesante, sabes que lo que teníamos que hacer era construir un gráfico completo de
Esencialmente, las funciones de Python que necesitamos para ejecutar una después del otro, primero tire del clip y luego hagas un poco de limpieza, lo que haces
alguna inferencia de red luego otra inferencia de red hasta que finalmente obtenga esto, pero debe hacerlo como un
a gran escala, así que les digo que probablemente necesitemos disparar porque sabes 100 000 clips por día o como 100 000 artículos
Eso parece bueno um, por lo que los ingenieros dicen que podemos hacer un poco de postgrres y un poco
de grasa de codo podemos hacerlo, mientras que estamos un poco más tarde y estamos haciendo 20
millones de estas funciones todos los días nuevamente, llegamos a alrededor de medio millón
clips y en los que ejecutamos una tonelada de funciones cada una de estas de forma transmisión y, por lo tanto, eso es una especie de espalda
Infra final que también es necesario no solo ejecutar el entrenamiento, sino también el etiquetado automático, sí, es como una fábrica que
produce etiquetas y, como las líneas de producción, el inventario de calidad de rendimiento, como todos los mismos conceptos aplicados a esto
Etiqueta de fábrica uh que se aplica a usted conoce la fábrica de nuestros autos, es decir
Está bien, gracias uh, así que sí, así que concluye
Esta sección uh me gustaría compartir algunos ejemplos más desafiantes e interesantes para la red seguramente e incluso
Para los humanos probablemente, así que desde la cima hay como ejemplos por falta de mentiras o Noche de niebla o rotonda
y oclusiones por pesadas oclusiones de autos estacionados e incluso noche lluviosa con sus gotas de lluvia en lentes de cámara uh
Estos son desafiantes, pero una vez que sus escenas originales están completamente reconstruidas por otros clips, todos ellos pueden ser
Auto etiquetado para que nuestras tarjetas puedan conducir aún mejor a través de estos escenarios desafiantes
Así que ahora déjame pasar el micrófono a David para aprender más sobre cómo Sim está creando el nuevo mundo además de estas etiquetas gracias
tú
Gracias de nuevo, mi nombre es David y voy a hablar sobre la simulación, por lo que la simulación juega un papel fundamental en
Proporcionar datos que son difíciles de obtener o difícil de etiquetar, sin embargo, las escenas 3D son notoriamente lentas
para producir, por ejemplo, la escena simulada que se reproduce detrás de un
intersección compleja de Market Street en San Francisco Tomaría dos semanas para
Artistas para completar y para nosotros eso es dolorosamente lento, sin embargo, voy a hablar sobre usar
Las etiquetas automatizadas de la verdad del suelo de Jaegan junto con algunas herramientas nuevas que nos permiten generar procedimientos
escena y a muchos les gusta en solo cinco minutos, eso es increíble mil veces más rápido que antes
Así que vamos a sumergirnos en nuestra escena de la misma.
Etiquetas de verdad en nuestras herramientas de creador mundial simuladas dentro del software Houdini Comenzando con el límite de la carretera
Etiquetas Podemos generar una malla de carretera sólida y re-topologizarlo con las etiquetas del gráfico de carril esto ayuda a informar una carretera importante
Detalles como la pendiente de la encrucijada y la mezcla de material detallado
A continuación, podemos usar los datos de la línea y barrer la geometría en su superficie y proyectarlo en la carretera creando pintura de carril
Palabas a continuación usando los bordes medios que podemos generar
Geometría de la isla y llévela con follaje aleatorizado Esto cambia drásticamente la visibilidad de la escena
Ahora el mundo exterior se puede generar a través de una serie de heurísticas aleatorias un generador de construcción modular
crear obstrucciones visuales, mientras que los objetos colocados al azar como los hidrantes pueden cambiar el color de las curvas mientras
Los árboles pueden dejar caer las hojas debajo de las líneas o bordes oscureciendo
A continuación, podemos traer datos de mapa para informar posiciones de cosas como semáforos o señales de parada que podemos rastrear
Es normal recopilar información importante como el número de carriles e incluso obtener nombres de calles precisos en el
Señalización a continuación usando el gráfico de carril podemos determinar la conectividad del carril y el desove direccional
Marcas en la carretera en la carretera y acompañan letreros de carretera y finalmente con Graph Lane en sí, nosotros
puede determinar la adyacencia del carril y otras métricas útiles para generar permutaciones de tráfico aleatorias simulador de información privilegiada
Y nuevamente, todo esto es automático, no hay artistas en el bucle y ocurre en cuestión de minutos y ahora esto nos prepara para hacer
Algunas cosas geniales, ya que todo se basa en datos y heurísticas, podemos comenzar a luchar
Parámetros Para crear variaciones visuales de la verdad de un solo terreno, puede ser tan sutil como la colocación de objetos y el azar
Cambio de materiales a cambios más drásticos como biomas completamente nuevos o ubicaciones del medio ambiente como Urban
Suburbano o rural Esto nos permite crear permutaciones específicas infinitas para
Verdades de tierra para las que necesitamos más verdad terrestre y todo esto sucede en un clic de un
Botón e incluso podemos dar esto un paso más allá al alterar nuestra verdad terrestre
en sí mismo dice que John quiere que su red preste más atención las marcas direccionales de la carretera
Para detectar mejor un próximo carril de giro a la izquierda cautiva, podemos comenzar a alterar procesalmente nuestro gráfico de carril en el interior
el simulador para ayudar a la gente a crear flujos completamente nuevos a través de esta intersección para ayudar
Enfoque la atención de la red a las marcas de carreteras para crear predicciones más precisas y este es un gran ejemplo de cómo esto
Las herramientas nos permiten crear nuevos datos que nunca podrían recopilarse del mundo real
y el verdadero poder de esta herramienta está en su arquitectura y en cómo podemos ejecutar todas las tareas en paralelo a infinitamente
escala para que viste la herramienta de creador de mosaicos en acción convirtiendo la verdad del suelo
Etiquetas en sus contrapartes A continuación, podemos usar nuestra herramienta de extracto de mosaico
Para dividir estos datos en baldosas de Geohash a unos 150 metros de tamaño cuadrado de tamaño
Luego guardamos esos datos en archivos de geometría y instancia separados, esto nos brinda una fuente limpia de datos que es fácil de
Cargar y nos permite hacer que el motor sea agnóstico para el futuro
Luego, utilizando una herramienta de cargador de baldosas, podemos convocar cualquier número de esos mosaicos para caché usando una ID de Geohash que estamos haciendo actualmente
Alrededor de estos cinco por cinco mosaicos o tres por tres generalmente centrados en los puntos de acceso de la flota o un gráfico de tierra interesante
Las ubicaciones en el cargador de mosaicos también convierten estos conjuntos de mosaicos en activos U para consumo
por el motor Unreal y le brinda un producto de proyecto terminado de lo que vio en la primera diapositiva
Y esto realmente nos configura para el tamaño y la escala como puede ver en el mapa detrás de nosotros
Podemos generar fácilmente la mayoría de las calles de la ciudad de San Francisco y esto no llevó años o incluso meses de trabajo, pero
más bien dos semanas por una persona podemos seguir administrando y creciendo todo
Estos datos utilizan nuestra red PDG dentro de las herramientas que esto nos permite lanzar
Calcule y regenere todos estos conjuntos de baldosas durante la noche, esto garantiza que todos los entornos sean de
Calidad y características consistentes que es muy importante para la capacitación ya que las nuevas ontologías y señales son constantemente
lanzado y ahora para completar el círculo porque nosotros
Generó todos estos conjuntos de mosaicos a partir de datos de verdad de tierra que contienen todas las complejidades extrañas del mundo real
y podemos combinar eso con la variedad de procedimiento visual y de tráfico para crear datos dirigidos ilimitados para el
Red para aprender y eso concluye la sección SIM Se la pasaré a Kate para hablar sobre cómo podemos
Use todos estos datos para mejorar el piloto automático gracias
Gracias David Hola a todos, mi nombre es Kate Park y estoy aquí para hablar sobre el motor de datos, que es el proceso por el cual nosotros
Mejore nuestras redes neuronales a través de datos, vamos a mostrarle cómo resolvemos deterministas intervenciones
a través de datos y guiarlo a través de la vida de este clip en particular en este escenario
El piloto automático se acerca a un giro y predice incorrectamente que el cruce de vehículos se detiene para el tráfico y, por lo tanto,
Un vehículo por el que reduciríamos la velocidad en realidad no hay nadie en el auto, está pareciendo torpemente que hemos construido esto
Las herramientas para identificar las predicciones erróneas corrigen la etiqueta y clasifiquen esto
Clip en un conjunto de evaluación Este clip en particular resulta ser uno de 126
que hemos diagnosticado como autos estacionados desafiantes en turnos debido a esto
infra podemos curar este conjunto de evaluación sin ningún recurso de ingeniería personalizado
a este caso de desafío particular para resolver ese caso de desafío
Requiere minería de miles de ejemplos como este y es algo que Tesla puede hacer trivialmente, simplemente usamos nuestros datos.
Abastecimiento de datos de solicitud de infra y utilice las herramientas que se muestran previamente para corregir el
etiquetas apuntando quirúrgicamente a las predicciones erróneas del modelo actual solo estamos agregando la más valiosa
Ejemplos a nuestro conjunto de entrenamiento solucionamos quirúrgicamente 13 900 clips y uh
Porque esos fueron ejemplos en los que el modelo actual lucha, ni siquiera necesitamos cambiar la arquitectura del modelo a
La actualización de una manera simple con estos nuevos datos valiosos es suficiente para resolver el caso de desafío para que vea que ya no predecimos
ese vehículo de cruce tan detenido como se muestra en naranja pero estacionado como se muestra en rojo
En la academia a menudo vemos que las personas mantienen los datos constantes pero en Tesla es
Muy opuesto vemos una y otra vez que los datos son uno de los mejores, si no la palanca más determinista.
Para resolver estas intervenciones, le mostramos el bucle de motores de datos
para un caso de desafío, a saber, estos autos estacionados en turnos, pero hay muchos casos de desafío incluso para una señal de
Movimiento del vehículo Aplicamos este bucle de motor de datos a cada caso de desafío que hemos diagnosticado si se trata de autobuses
Las carreteras con curvas detuvieron los estacionamientos de los vehículos y no solo agregamos datos una vez que
Haga esto una y otra vez para perfeccionar la semántica de hecho este año, actualizamos nuestra señal de movimiento del vehículo cinco veces
Y con cada actualización de peso entrenada en los nuevos datos, empujamos la precisión del movimiento de nuestro vehículo hacia arriba y hacia arriba
Este marco del motor de datos se aplica a todas nuestras señales si son 3D
Video de múltiples cámaras si los datos son etiquetados como humanos etiquetados o simulados por auto si se trata de un modelo fuera de línea o un
Modelo en línea Modelo y Tesla pueden hacerlo a escala debido a la flota
Ventaja el infra que ha construido nuestro equipo de motores y los recursos de etiquetado que alimentan nuestras redes
Para entrenar en todos estos datos necesitamos una gran cantidad de cómputo, así que se lo entregaré a Pete y Ganesh para hablar sobre
La plataforma de supercomputación de dojo gracias [aplausos]
Gracias gracias Katie
Gracias a todos gracias por estar allí, ya casi estamos allí, mi nombre es Pete Bannon, ejecuto la costumbre
Silicon y equipos de bajo voltaje en Tesla y mi nombre es Ganesh Venkat, ejecuto el
programa Doji
[Aplauso] Gracias, me preguntan con frecuencia por qué es un coche
Compañía construyendo una súper computadora para capacitación y esta pregunta fundamentalmente
No entiende la naturaleza de Tesla en su corazón, Tesla es una tecnología incondicional
Compañía en toda la empresa La gente está trabajando duro en ciencias e ingeniería
para avanzar la comprensión y los métodos fundamentales que tenemos disponibles
Para construir robots de soluciones de energía de automóviles y cualquier otra cosa, ¿podemos hacer para hacer para
mejorar la condición humana en todo el mundo, es algo muy emocionante de ser parte y es un privilegio administrar un muy
Pequeño parte del grupo de semiconductores esta noche vamos a hablar un poco sobre Dojo y darle un
Actualizar lo que hemos podido hacer durante el último año, pero antes de hacerlo, quería dar un poco de
Antecedentes sobre el diseño inicial que comenzamos hace unos años cuando comenzamos el objetivo era proporcionar un
Mejora sustancial a la latencia de entrenamiento para nuestro equipo de piloto automático algunos de
Las redes neuronales más grandes que entrenaron hoy se ejecutan durante más de un mes, lo que inhibe su capacidad de rápidamente
explorar alternativas y evaluarlas para que sepa que una velocidad de 30x sería
Muy agradable si pudiéramos proporcionarlo a una manera competitiva y competitiva de energía en costo
Para hacer eso queríamos construir un chip con mucha aritmética aritmética
unidades que podríamos utilizar con una eficiencia muy alta y pasamos mucho tiempo estudiando si podríamos hacer eso
Usando DRM varias ideas de empaque, todas las cuales fallaron y al final aunque
Se sintió como un acto antinatural que decidimos rechazar a DRAM como el medio de almacenamiento principal para este sistema y en su lugar enfocar
en SRAM incrustado en el chip sram proporciona desafortunadamente un modesto
cantidad de capacidad pero ancho de banda extremadamente alto y muy baja latencia y eso nos permite lograr una alta utilización
con las unidades aritméticas esas opciones
de esa opción particular llevó a un montón de otras opciones, por ejemplo, si desea tener memoria virtual que necesita
Tablas de página que ocupan mucho espacio No teníamos espacio, así que no hay memoria virtual tampoco tenemos interrupciones de la
Acelerator es una pieza de hardware de Bown Bonds Rob que se presenta a un compilador
en el compilador es responsable de programar todo lo que sucede de manera terminista, por lo que no hay necesidad o
Incluso el deseo de interrupciones en el sistema también elegimos perseguir el modelo
El paralelismo como metodología de entrenamiento que no es la situación típica más
La mayoría de las máquinas de hoy usan el paralelismo de datos que consume una capacidad de memoria adicional que obviamente no tenemos
Entonces, todas esas opciones nos llevaron a construir una máquina que sea bastante radicalmente
A diferencia de lo que está disponible hoy, también teníamos un montón de otros objetivos, uno de los más importantes fue no fue
Límites, así que queríamos construir una tela de cómputo que se escalaría de manera ilimitada en su mayor parte, lo que quiero decir obviamente
Hay límites físicos de vez en cuando, pero sabes más o menos si tu modelo era
Demasiado grande para la computadora que solo tenías que comprar una computadora más grande que es lo que estábamos buscando hoy el paquete de la forma en que
Las máquinas están empaquetadas, hay una relación bastante fija de, por ejemplo, CPU de GPU y
y capacidad de dram y capacidad de red y realmente queríamos desglosar todo eso para que a medida que los modelos evolucionen pudiéramos
varíe las proporciones de esos diversos elementos y haga que el sistema sea más flexible para satisfacer las necesidades del
Equipo de piloto automático Sí, y es tan cierto con la filosofía de Like No Limits fue nuestra estrella guía
Todo el camino todas nuestras opciones se centraron en eso y a la
señala que no queríamos que la infraestructura tradicional del centro de datos limite nuestro
capacidad para ejecutar estos programas a velocidad, por eso nosotros
Es por eso que lo siento por eso es por eso que nos integramos
verticalmente nuestro centro de datos todo el centro de datos haciendo una vertical
Integración del centro de datos Podríamos extraer nuevos niveles de eficiencia, podríamos optimizar la energía
enfriamiento de entrega y gestión de sistemas a través de
toda la pila del centro de datos en lugar de hacer cuadro por caja e integrar eso
Esos cuadros en centros de datos y para hacer esto también queríamos
Integre temprano para descubrir límites de escala uh para nuestro
Cargas de trabajo de software, por lo que integramos el entorno de Dojo en nuestro software de piloto automático muy temprano y aprendimos mucho
Lecciones y hoy uh Bill Chang repasará nuestra actualización de hardware, así como algunas
de los desafíos que enfrentamos en el camino y Rajiv Kurian le dará un
Glimpse de nuestra tecnología de compiladores y repasa algunos de nuestros resultados geniales
Justo ahí, vas
Gracias Pete gracias Ganesh um Comenzaré esta noche con un alto nivel
Visión de nuestro sistema que ayudará a preparar el escenario para los desafíos y los problemas que estamos
resolver y luego cómo el software aprovechará esto para el rendimiento
Ahora nuestra visión para el dojo es construir un solo unificado acelerar un muy grande
Un software vería un plano de cómputo sin costuras con a nivel mundial direccionable
memoria muy rápida y todo conectado junto con uniforme de ancho de banda y alto y
baja latencia ahora para darnos cuenta de esto que necesitamos usar
densidad para lograr el rendimiento Ahora aprovechamos la tecnología para obtener esta densidad para romper los niveles de
jerarquía desde el chip hasta los sistemas de escala
Ahora Silicon Technology ha utilizado esto ha hecho esto durante décadas que los chips tienen
Siguió la ley de Moore para la densidad e integración para obtener el escala de rendimiento
Ahora un paso clave para darse cuenta de que la visión fue nuestro mosaico de entrenamiento no solo podemos integrar 25 troqueles en
ancho de banda extremadamente alto, pero podemos escalar eso a cualquier cantidad de mosaicos adicionales simplemente conectándolos juntos
Ahora el año pasado mostramos nuestro primer mosaico de entrenamiento funcional y en ese momento ya teníamos cargas de trabajo ejecutándose en
y desde entonces el equipo aquí ha estado trabajando duro y diligentemente para implementar
Esto a escala ahora hemos hecho un progreso sorprendente y tuvimos muchos hitos en el camino y de
por supuesto, hemos tenido muchos desafíos inesperados, pero aquí es donde nuestro fracaso rápido
La filosofía nos ha permitido superar nuestros límites
Ahora presionando la densidad para el rendimiento presenta todos los nuevos desafíos Un área es la entrega de energía
Aquí necesitamos entregar el poder a nuestro dado de cómputo y esto impacta directamente
Nuestro rendimiento de computa de la línea superior, pero necesitamos hacer esto a una densidad sin precedentes, necesitamos poder igualar nuestro
Die Pitch con una densidad de potencia de casi un amplificador por milímetro cuadrado
y debido a la integración extrema, esto debe ser una vertical de niveles múltiples
Solución de potencia y porque hay un material complejo de material heterogéneo.
Tenemos que administrar cuidadosamente la transición del material, especialmente CTE
Ahora, ¿por qué es importante el coeficiente de expansión térmica en este caso CTE es una propiedad material fundamental?
y si no se maneja cuidadosamente que la pila literalmente se destrozaría
Entonces comenzamos este esfuerzo trabajando con proveedores para entregar para desarrollar este
Solución de potencia, pero nos dimos cuenta de que en realidad teníamos que desarrollar este interno
Ahora, para equilibrar el horario y el riesgo, construimos iteraciones rápidas para apoyar
Tanto nuestro sistema menciona el desarrollo de software y también para encontrar el diseño óptimo y
Acumular eso para cumplir con nuestros objetivos de producción finales y al final pudimos reducir CTE por más del 50 por ciento
y cumplir con nuestra actuación por 3 veces sobre nuestra versión inicial
Ahora no hace falta decir que encontrar este material óptimo se acumula mientras maximiza
El rendimiento en densidad es extremadamente difícil
Ahora teníamos desafíos inesperados en el camino, aquí hay un ejemplo en el que empujamos el
límites de la integración que condujeron a fallas de componentes
Esto comenzó cuando ampliamos a cargas de trabajo cada vez más largas y luego intermedió intermitentemente un solo
El sitio en un mosaico fallaría ahora, comenzaron como fallas recuperables, pero como empujamos mucho
mayor y mayor potencia se convertirían en fallas permanentes
Ahora para comprender este fracaso, debe entender por qué y cómo construimos nuestro
La densidad de resolución de módulos de potencia en todos los niveles es el IS
¿Es la piedra angular de lograr realmente el rendimiento de nuestro sistema ahora porque nuestro avión X y se usa para
Comunicación de alto ancho de banda Todo lo demás debe apilarse verticalmente
Esto significa que todos los demás componentes que no sean nuestro dado deben integrarse en nuestros módulos de potencia.
Ahora eso incluye nuestro reloj y nuestras fuentes de alimentación y también los controladores del sistema
Ahora, en este caso, las fallas se debieron a la pérdida de la salida del reloj de nuestros osciladores
y después de una amplia depuración, descubrimos que la causa raíz se debió a vibraciones en el módulo de
Efectos piezoeléctricos nuestros condensadores cercanos
Ahora las tapas de canto no son un fenómeno nuevo y, de hecho, son muy comunes en diseño de potencia
Pero normalmente las chips de reloj se colocan en una zona muy tranquila del tablero y a menudo
no afectados por los circuitos de potencia, sino debido a que necesitábamos lograr este nivel de integración, estos osciladores deben
ser colocado muy cerca ahora debido a nuestra frecuencia de conmutación y
Luego, la resonancia de vibración creó que causó vibración del plano automático en nuestros MEMS
oscilador que hizo que se rompiera ahora la solución a este problema es un
Enfoque múltiple podemos reducir la vibración mediante el uso de tapas de terminal suave
Podemos actualizar nuestra parte MEMS con un factor Q más bajo para la dirección del plano exterior
y también podemos actualizar nuestra frecuencia de frecuencia de conmutación para alejar la resonancia de estos
bandas sensibles ahora se además de la densidad uh en
El nivel del sistema hemos progresado mucho en el nivel de infraestructura
Sabíamos que teníamos que volver a examinar todos los aspectos de la infraestructura del centro de datos
Para apoyar nuestra potencia sin precedentes y densidad de enfriamiento
Trajimos un CDU diseñado completamente personalizado para admitir la densa enfriamiento de Dojo
Los requisitos y la parte sorprendente es que podemos hacer esto a una fracción del costo en lugar de comprar el estante y
modificarlo y dado que nuestro gabinete de dojo integra suficiente energía y enfriamiento para que coincida con un
Fila completa de bastidores de TI estándar necesitamos diseñar cuidadosamente nuestro gabinete y
infraestructura juntos y ya hemos pasado por varias iteraciones de este gabinete para optimizar
Esto y a principios de este año comenzamos a probar nuestra potencia y enfriamiento.
infraestructura y pudimos superar dos megavatios antes de tropezar con nuestra subestación y recibir una llamada del
Ciudad, sí, ahora el año pasado presentamos solo un
Un par de componentes de nuestro sistema, el D1 personalizado y el mosaico de capacitación, pero
Nos burlamos de la cápsula de salida, ya que nuestro objetivo final, caminaremos por las partes restantes de nuestro sistema que se requieren para construir
fuera de esta cápsula de salida Ahora la bandeja del sistema es una parte clave de
darnos cuenta de nuestra visión de un solo acelerador, nos permite
Conecte los mosaicos no solo dentro del gabinete sino entre gabinetes
Podemos conectar estos mosaicos a un espacio muy apretado en todo el acelerador
y así es como logramos nuestra comunicación uniforme, esta es una barra de autobuses laminada que permite
Us para integrar un soporte mecánico y térmico de muy alta potencia en una integración extremadamente densa
Tiene 75 milímetros de altura y admite seis fichas a 135 kilogramos
Este es el equivalente de tres a cuatro bastidores de alto rendimiento completamente cargados
A continuación, necesitamos alimentar los datos a los mosaicos de capacitación, aquí es donde hemos desarrollado el procesador de interfaz Dojo
Proporciona a nuestro sistema un DRAM de alto ancho de banda para organizar nuestros datos de entrenamiento.
y proporciona un ancho de banda de memoria completa a nuestras fichas de entrenamiento utilizando TTP nuestra personalización
Protocolo que podemos usar para comunicarnos en todo nuestro acelerador, también tiene Ethernet de alta velocidad que
nos ayuda a extender este protocolo personalizado sobre Ethernet estándar y proporcionamos soporte de hardware nativo
Para esto con poco o ninguna sobrecarga de software y, por último, podemos conectarnos a él
a través de una interfaz PCIe Gen 4 estándar
Ahora emparejamos 20 de estas cartas por bandeja y eso nos da 640 gigabytes de alto
Dram de ancho de banda y esto proporciona nuestra capa de memoria desagregada para nuestras fichas de entrenamiento
Estas cartas son una ruta de ingesta de alto ancho de banda tanto a través de PCIe como a Ethernet
También proporcionan una ruta de conectividad Z alta Taredx que permite atajos en nuestro gran dojo
Acelerador ahora realmente integramos el host
directamente debajo de nuestra bandeja del sistema, estos hosts proporcionan nuestro procesamiento de ingesta y se conectan a nuestra interfaz
Los procesadores a través de PCIe, estos hosts pueden proporcionar video de hardware
Soporte del decodificador para la capacitación basada en video y nuestras aplicaciones de usuario aterrizan en estos
Hosts que nosotros para que podamos proporcionarles el entorno estándar X86 Linux
Ahora podemos colocar dos de estos ensamblajes en un solo gabinete y combinarlo con fuentes de alimentación redundantes que realizan directamente
Conversión de potencia de CA de 480 voltios de fase trifásica a potencia de CC de 52 voltios
Ahora al centrarnos en la densidad en todos los niveles, podemos darnos cuenta de la visión de un solo
Acelerador ahora comenzando con los nodos uniformes en nuestro die D1 personalizado
Podemos conectarlos juntos en nuestro mosaico de entrenamiento totalmente integrado y finalmente conectar sin problemas
ellos a través de los límites del gabinete para formar nuestro acelerador de dojo
y todos juntos podemos albergar dos aceleradores completos en nuestra cápsula de salida para un
Combinado un exaflop de ML Compute ahora todo puede ser por completo esta cantidad de
La tecnología y la integración solo se han realizado un par de veces en el
Historial de Compute A continuación, veremos cómo el software puede aprovechar esto para acelerar su rendimiento
[Aplausos]
Gracias Bill Mi nombre es Rajiv y voy a hablar algunos números para que nuestra pila de software comience con el PI
Extensión de la antorcha que habla de nuestro compromiso con uno de los modelos estándar de Pytorch
Vamos a hablar más sobre nuestro compilador JIT y la tubería de ingesta que alimenta el hardware con datos
actuaciones abstractamente superiores tiempos de utilización de la ocupación del acelerador
Hemos visto cómo el hardware proporciona el rendimiento máximo es el trabajo del compilador para extraer la utilización del
Hardware Mientras el código se ejecuta y es el trabajo de la tubería de ingesta para asegurarse de que los datos se puedan ajustar
con el rendimiento lo suficientemente alto como para que el hardware no hambre de hambre, así que hablemos de por qué la comunicación
Los modelos unidos son difíciles de escalar, pero antes de eso, veamos por qué los modelos de resnet 50 son más fáciles de escalarlo
Comience con un solo acelerador, ejecute los pases hacia adelante y hacia atrás seguido del optimizador
que para escalar esto, ejecuta múltiples copias de esto en múltiples aceleradores y, mientras que el gradiente se produce por
El pase hacia atrás debe reducirse y esto presenta cierta comunicación, esto se puede hacer con la tubería con el
Pase hacia atrás Esta configuración escala bastante bien casi
linealmente para modelos con activaciones mucho más grandes
Nos encontramos con un problema tan pronto como queramos ejecutar el delantero, pase el tamaño de lote que se ajusta en un solo
El acelerador a menudo es más pequeño que la superficie de la norma por lotes, por lo que para evitar estos investigadores generalmente ejecutan esta configuración en múltiples
aceleradores en modo de norma de lote de sincronización Esto introduce la comunicación de latencia unida a la ruta crítica de
el pase delantero y ya tenemos un cuello de botella de comunicación y, aunque hay formas de moverse
Esto generalmente implican un trabajo manual tedioso que se adapta el más adecuado para un compilador y, en última instancia, no hay esquisto.
Alrededor del hecho de que si su estado no se ajusta a un solo acelerador, puede estar atado por la comunicación
E incluso con esfuerzos significativos de nuestros ingenieros de ML, vemos que tales modelos no escala linealmente
El sistema dojo fue construido para hacer que dichos modelos funcionen con una alta utilización de la alta
La integración de la densidad se construyó para no solo acelerar las porciones de calcular de un modelo sino también la latencia
porciones vinculadas como una norma por lotes o las porciones de ancho de banda como un gradiente
Todos reducidos o un parámetro, todos recopilan una porción de la malla dojo se pueden tallarse
Para ejecutar cualquier modelo, lo único que los usuarios deben hacer es hacer que la rebanada se ajuste a un
superficie del baño para su modelo particular después de eso la partición se presenta
Como un acelerador grande que libera a los usuarios de tener que preocuparse por los detalles internos de la ejecución
y como el trabajo del compilador para mantener esta abstracción primitiva de sincronización de grano fino en
La baja latencia uniforme facilita acelerar todas las formas de paralelismo a través de los límites de integración tensores
generalmente se fragmentan en SRAM y se replican justo a tiempo para la ejecución de capas, dependemos del alto dojo
El ancho de banda para ocultar esta replicación del tensor de tiempo de replicación y otras transferencias de datos se superponen con cómputo
y el compilador también puede recomputar capas cuando es rentable hacerlo
Esperamos que la mayoría de los modelos funcionen fuera de la caja como ejemplo, tomamos el modelo de difusión estable recientemente lanzado y obtuvimos
Se ejecuta en Dojo en minutos fuera de la caja, el Kampala pudo mapearlo de manera paralela modelo en 25 Dojo Dies
Aquí hay algunas fotos de un camión cibernético en Marte generado por una difusión estable que se ejecuta en Dojo
mira [aplausos]
Parece que todavía tiene algún camino por recorrer antes de hacer coincidir el equipo de Tesla Design Studio
Así que hemos hablado sobre cómo los cuellos de botella de comunicación pueden obstaculizar la escalabilidad quizás una prueba ácida de un compilador y
El hardware subyacente está ejecutando una capa de formulario de diabán cruzado como se mencionó antes, esto puede ser un cuello de botella en serie
La fase de comunicación de un soltero comienza con nodos que calculan la media local y las desviaciones estándar.
Coordinar para reducir estos valores y luego transmitir estos valores hacia atrás y luego reanudar su trabajo en paralelo
Entonces, ¿cómo se vería una forma de lotes ideal en 25 puntos de dojo, digamos las menos activaciones anteriores?
ya están divididos en dados, esperaríamos que 350 nodos en cada
morir para coordinar y producir die los valores de división medio y estándar de die idealmente que estos obtendrían más
reducido con el valor final que termina en algún lugar y hacia la mitad del mosaico, esperamos ver una transmisión de
Este valor que irradia desde el centro veamos cómo el compilador realmente ejecuta una operación de soltero real
a través de 25 dados, los árboles de comunicación se extrajeron del compilador y el
El tiempo es de un hardware real, estamos a punto de ver 8750 nodos en 25 troqueles
Coordinar para reducir y luego transmitir la media de Bastrum y las válvulas de desviación estándar
Marque la reducción local seguida de una reducción global hacia la mitad del empate
Luego, la transmisión de valor reducido que se irradia desde el medio acelerado por la transmisión del hardware
Instalación Esta operación solo toma cinco
Microsegundos en 25 dados de dojo La misma operación toma 150 microsegundos en 24
GPU Esta es una órdenes de mejora de magnitud sobre las GPU
y mientras hablamos sobre una operación reducida en el contexto de una norma por lotes, es importante reiterar que el
Las mismas ventajas se aplican a todas las demás primitivas de comunicación y estas primitivas son esenciales para a gran escala
capacitación Entonces, ¿qué tal el rendimiento del modelo completo, así que mientras creemos que Resonant 50 es
No es una buena representación de las cargas de trabajo de Tesla del mundo real, es un punto de referencia estándar, así que comencemos allí
Ya podemos igualar el Die For Die 100, sin embargo, tal vez un toque de Dojo's
Las capacidades es que podemos alcanzar este número con solo un lote de 8 por die.
Pero Dojo estaba realmente construido para abordar modelos complejos más grandes, así que cuando nos propusimos abordar el mundo real
Cargas de trabajo Visitamos los patrones de uso de nuestro clúster de GPU actual y dos modelos se pusieron en cuenta el etiquetado automático
redes una clase de modelos fuera de línea que se utilizan para generar la verdad de tierra y las redes de ocupación que escuchó
Acerca de las redes de etiquetado automático son modelos grandes que tienen alta intensidad aritmética, mientras que las redes de ocupación
Puede estar en Justbound, elegimos estos modelos porque juntos representan una gran parte de nuestro clúster de GPU actual
uso y desafiarían el sistema de diferentes maneras
Entonces, ¿cómo lo hacemos en estas dos redes los resultados que estamos a punto de ver se midieron en sistemas múltiples para ambos?
la GPU y el dojo, pero se normalizan a los números de perreros en nuestra red de etiquetado automático, estamos
ya puede superar el rendimiento de un A100 con nuestro hardware actual ejecutándose en nuestros VRM de generación anterior en
Nuestro hardware de producción con nuestros VRAM más nuevos que se traduce en duplicar el rendimiento de un A100
Y nuestro modelo mostró que con algunas optimizaciones de compiladores clave podríamos llegar a más de tres rendimientos adicionales de un
A100 vemos saltos aún más grandes en la red de ocupación
casi 3 veces con nuestro hardware de producción con espacio para más
Extranjero [aplausos]
Nivel de rendimiento del compilador Podríamos reemplazar el cómputo ML de uno dos tres cuatro y seis GPU
cajas con solo un mosaico de dojo [aplausos]
Y este dojo tejidas cuesta menos de una de estas cajas de GPU whoa
sí, lo que realmente significa es que las redes
que tardó más de un mes en entrenar ahora tarda menos de una semana.
Por desgracia, cuando medimos las cosas, no salió tan bien en el nivel de la antorcha de pastel que no vimos
Nuestra actuación esperada fuera del GIT y este gráfico de la línea de tiempo muestra nuestro problema las pequeñas y pequeñas barras verdes que son
El código de compilación que se ejecuta en el acelerador, la fila es principalmente espacio en blanco donde el
El hardware solo está esperando datos con nuestros hosts densos densos de dojo
efectivamente tener 10 veces más cómputo ml que el host de GPU. El cargador de datos se está ejecutando en este host simplemente no podría
Manténgase al día con todo ese hardware ML para resolver la escalabilidad de nuestro cargador de datos
Problemas que sabíamos que teníamos que superar el límite de este único anfitrión El protocolo de transporte Tesla mueve los datos
sin problemas a través de los procesadores de mosaicos e ingerir, por lo que extendimos el Tesla
Protocolo de transporte para trabajar sobre Ethernet. Luego construimos la interfaz de la red de dojo llamada DNIC para aprovechar TTP sobre
Ethernet Esto permite que cualquier host con una tarjeta DNIC pueda DM y
de otros puntos finales de TTP, así que comenzamos con la malla dojo
Luego agregamos un nivel de hosts de carga de datos equipados con la tarjeta DNIC
Conectamos estos hosts a la malla a través de un conmutador Ethernet ahora cada host en este nivel de carga de datos es capaz de
Alcanzar todos los puntos finales de TTP en la malla de dojo a través de DMA acelerado de hardware
Después de que estas optimizaciones fueron en nuestra ocupación pasó del cuatro por ciento
al 97 por ciento para que las secciones de carga de datos se hayan reducido
Datos Las secciones de carga de datos se han reducido drásticamente y el hardware ML se mantiene ocupado, realmente esperamos esto.
número para ir a 100 poco después de que entraron estos cambios, vimos la velocidad completa esperada del Pytorch
capa y estábamos de vuelta en el negocio, así que comenzamos con el diseño de hardware que
Rompe los límites de integración tradicionales al servicio de nuestra visión de un solo acelerador gigante
Hemos visto cómo el compilador y las justas capas se construyen en la parte superior de ese hardware, así que después de demostrar su rendimiento en
Estas complejas redes del mundo real sabíamos lo que nuestra primera implementación a gran escala se dirigiría a nuestro alto
Redes de etiquetado automático de intensidad aritmética que ocupan 4000 GPU en 72
GPU Backs con nuestra computadora densa y nuestro alto rendimiento esperamos proporcionar el
mismo rendimiento con solo cuatro gabinetes de dojo
[Aplausos]
Y estos cuatro gabinetes del dojo serán parte de nuestro primer exópodo que planeamos construir en el trimestre uno de 2023
Esta capacidad de etiquetado automático de Tesla más de doble Tesla
[Aplausos] La primera parte adicional es parte de un total
de siete partes adicionales que planeamos construir en Palo Alto aquí a través de la pared
[Aplausos] y tenemos un gabinete de exhibición de uno de estos exópodos para que todos los vean
Seis azulejos densamente empaquetados en una bandeja 54 petaflops de cómputo 640 gigabytes de
Memoria de alto ancho de banda con potencia y host para alimentarla
mucho y estamos construyendo nuevas versiones de
Todos nuestros componentes de clúster y mejorando constantemente nuestro software para alcanzar nuevos límites de habilidad creemos que nosotros
puede obtener otra mejora de 10x con nuestro hardware de próxima generación
Y para realizar sus objetivos ambiciosos, necesitamos los mejores ingenieros de software e hardware, así que venga a hablar con nosotros o
Visite tesla.com ai gracias [aplausos]
Muy bien, avísame
Muy bien, así que esperamos que sea suficiente detalle
Y ahora podemos mudarnos a las preguntas um y uh chicos uh como creo que el equipo
regresó sale al escenario y realmente queríamos mostrar la profundidad
y amplitud de tesla en la inteligencia artificial de um
Actuadores de robótica de hardware de cálculo y [música]
Y trata de alejar realmente la percepción de la empresa de UH, sabes un
Mucha gente piensa que solo somos como una compañía de automóviles o hacemos autos geniales, pero uh
No tienen la mayoría de las personas no tienen idea de que Tesla es posiblemente el líder en
Hardware y software de IA del mundo real y que estamos construyendo
Uh, ¿qué es podría decirse que es el primero?
Arquitectura de computadora desde la supercomputadora de crayón y creo que si está interesado en
Desarrollar algunas de las tecnologías más avanzadas del mundo que realmente afectará al mundo en un
Manera positiva Uh nos dice el lugar para estar, así que sí, disparemos con algunos
Preguntas Creo que hay un micrófono en la parte delantera y un
micrófono en la parte posterior uh
Muchas gracias, me impresionó aquí, sí, me impresionó mucho
Optimus, pero me pregunto por qué no conducen la caza por qué eligió un
enfoque de tierna para la caza porque los tendones no son muy duraderos y
Por qué la primavera se cargó bien, esto es genial, increíble, sí, sí
Esa es una gran pregunta, Um, sabes, cuando se trata de cualquier tipo de esquema de actuación, hay compensaciones.
Entre se sabe si es o no un sistema de orina de tendón o algún tipo de sistema basado en enlaces en el que estoy solo en el que mantengo
mente cerca de tu boca un poco más cerca de sí, jeremy cool um, así que sí, la razón principal por la que fuimos
Para un sistema basado en tendones es que primero sabe que realmente investigamos algunos tendones sintéticos, pero encontramos que
Los cables metálicos de navegación son mucho más fuertes, una de las ventajas de estos cables
Um es que es muy bueno para la reducción parcial, queremos hacer muchas de estas manos, así que tener un montón de piezas A
Un montón de pequeños enlaces termina siendo un problema cuando estás haciendo mucho algo de las grandes razones
que sabes que los tendones son mejores que los enlaces en cierto sentido es que puedes ser anti-backlash
Entonces, el anti-backlash esencialmente sabes que te permite no tener huecos ni tú
Conozca el movimiento tartamude en sus dedos cargados principalmente de resorte
nos permite hacer si nos permite tener una apertura activa, por lo que en lugar de tener que tener que
Tenga dos actuadores para cerrar los dedos y luego abrir, tenemos la capacidad de que sepan que el tendón los impulse
cerrado y luego los resortes se extienden pasivamente y esto es algo que se ve en nuestras manos bien, tenemos el
capacidad para flexionarse activamente y luego también tenemos la capacidad de extender sí
Me refiero a que nuestro objetivo con Optimus es tener un robot que sea máximo de útil como
rápidamente como sea posible, por lo que hay muchas maneras de resolver los diversos problemas de un robot humanoide.
Um y uh probablemente no estamos avanzando el árbol correcto en todo lo técnico
Soluciones y debo decir que estamos abiertos a evolucionar las soluciones técnicas que ves aquí con el tiempo
No estamos, no están encerrados en piedra, pero sí tenemos que elegir algo
um adentro y queremos elegir algo que nos permita producir el robot lo más rápido posible
Y que lo haga como dije, sea útil lo más rápido posible, estamos tratando de seguir el objetivo del camino más rápido hacia un
robot útil que se puede hacer en volumen y vamos a probar el robot internamente en Tesla uh en nuestra fábrica
y eh y solo vea lo útil que es porque tienes que tener un
va a cerrar el bucle en la realidad para confirmar que el robot es de hecho útil
um y uh sí, así que lo usaremos para construir cosas y um somos
Confié en que podemos hacer eso con la mano que hemos diseñado actualmente, pero esto estoy seguro de que tendrán la versión dos
Versión tres y podemos cambiar la arquitectura de manera bastante significativa con el tiempo
Lo siento hola, eres el Robot Optimus es realmente impresionante que hayas hecho un gran trabajo
Um Los robots bipedal son realmente difíciles, pero lo que noté que podría estar faltando en su plan es reconocer el
utilidad del espíritu humano y me pregunto si Optimus alguna vez obtendrá una personalidad y podrá reírse de nuestro
chistes mientras que bien han doblado nuestra ropa, sí, absolutamente
Um, creo que queremos tener versiones realmente divertidas de Optimus
um y para que los optimistas puedan ser utilitarios y hacer tareas, pero también pueden ser
como un amigo um y un amigo y um pasar el rato con
Tú y estoy seguro de que la gente pensará en todo tipo de usos creativos para este robot.
Um y uh sabes lo que una vez que tienes la inteligencia central y los actuadores
Descubrí, entonces, ¿puedes saber que pongas todo tipo de
disfraces que supongo en el robot quiero decir que puedes hacer que el robot se vea uh
Puedes escanear el robot de muchas maneras diferentes, um y estoy seguro de que la gente encontrará uh
formas muy interesantes de uh sí versiones de Optimus así
Gracias por la gran presentación, quería saber si había un equivalente a las intervenciones en Optimus
Parece que etiquetar en momentos en los que los humanos no están de acuerdo con lo que está sucediendo es importante y en un robot humanoide
Esa podría ser también una fuente de información deseable
sí, estaba diciendo um, sí, creo que nosotros, tendremos formas de
Remote opere el robot e intervine cuando hace algo malo, especialmente cuando estamos entrenando al robot y
mencionándolo um y esperamos que lo diseñemos de una manera que podamos evitar que el robot
Si va a golpear algo que nos gustaría sostenerlo y se detendrá, no como si sepa aplastar su mano o algo así y todos son intervención
datos uh sí y también podemos aprender mucho de nuestros sistemas de simulación donde podemos
Verifique las colisiones y supervise que esas son malas acciones, sí, quiero decir tan optimus que queremos con el tiempo
Para que sea um, conoces un tipo de android de Android que habías visto en películas de ciencia ficción como
Star Trek, la próxima generación, como los datos, pero obviamente podríamos programar el robot para que sea menos como robot y más amigable
Y y sabes que obviamente puedes aprender a emular a los humanos y sentirte muy natural
Entonces, como AI en general mejora, podemos agregar eso al robot y
Um sabes que obviamente debería ser capaz de hacer instrucciones simples o incluso
En él, lo que quieres, para que puedas darle una instrucción de alto nivel y luego puede romper eso
hacia una serie de acciones y tomar esas acciones
hola uh sí, es emocionante pensar que con el optimus pensarás que pensarás que
Puede lograr órdenes de magnitud de mejora y producción económica.
Um eso es realmente emocionante y cuando Tesla comenzó la misión era acelerar el advenimiento de
Energía renovable o transporte sostenible, por lo que con el Optimus usted
todavía vea que esa misión es esta declaración de misión de Tesla o se va a actualizar con usted.
misión de acelerar el advenimiento de I No conozco abundancia infinita o
Economía ilimitada ilimitada sí, quiero decir que no es estrictamente
Hablando um Optimus no está estrictamente hablando uh
directamente en línea con UH acelerar la energía sostenible, ya sabes
en la medida en que es más eficiente hacer las cosas que una persona con la que supongo que lo sabes
Energía sostenible, pero creo que la misión efectivamente se amplía un poco con el advenimiento de Optimus uh a
Uh sabes que no sé hacer que el futuro sea increíble, así que sabes que creo que tú
Mira a los optimistas y um, sé sobre ti, pero estoy emocionado de ver en qué se convertirán los optimistas
Y sabes que esto es como si puedas si podrías decir que puedes decir como cualquier tecnología dada
Si lo haces, quieres ver cómo es en un año dos años tres años cuatro años cinco años diez
Diría con certeza que definitivamente quieres ver qué sucedió con Optimus um, mientras que sabes un montón de otros
Tecnologías ¿Sabes?
[Risas] um lo sabes
Creo que Optimus será increíble en cinco años, diez años como alucinante y estoy realmente
interesado en ver que suceda, espero que tú también lo estés oh, creo
um tengo una pregunta rápida aquí, soy justin y me preguntaba como si estuvieras
planeando extender como capacidades de conversación para el robot y mi segundo
La pregunta de seguimiento de eso es lo que es el objetivo final, ¿cuál es el objetivo final con Optimus?
Uh, sí, los optimistas definitivamente tendrían capacidades de conversación, así que
um i i, podrías hablar con él y tener una conversación y se sentiría bastante
natural, así que desde un punto de vista de llamadas finales soy, soy, no sé, creo que va a guardar
Sigue evolucionando y no estoy seguro de dónde termina pero
Algunos lugares interesantes seguramente um sabes que siempre tenemos que tener cuidado
sobre el sabes que no vayas por la ruta de terminador uh, eso es lo que sabes yo
Pensamiento para tal vez deberíamos comenzar con un video de Like the Terminator que comienza con esto, sabes Skull
aplastante pero oh eso podría ser, no sé si quieres tomar eso demasiado en serio, así que sí, sabes que queremos optimus
Esté seguro para que estemos diseñando en salvaguardas de UM donde pueda
Detén el robot um y uh, ya sabes, como básicamente un localizado
Control de ROM que no puede actualizar a través de Internet, lo que creo que es bastante importante
um esencial francamente um
Uh como un botón de parada localizado um control remoto remoto algo así como
que eso no se puede cambiar um
Pero quiero decir que definitivamente va a ser interesante, no será aburrido, así que
Bien, sí, te veo hoy, tienes un producto muy atractivo con dojo y sus aplicaciones, así que me pregunto cuál es el
Future for Dojo Platform, nos gustaría proporcionar una infraestructura y servicio de infraestructura como AWS o
Serás como un chip de ventas como el nvidia, así que básicamente cuál es el futuro debido a que digo que usas un siete
nanométrico para que el costo del desarrollador sea fácilmente más de 10 millones de dólares estadounidenses, ¿cómo se hace que el pene sea como un negocio en cuanto a los negocios?
Sí, quiero decir que um dojo es un es una computadora muy grande um y en realidad usaremos mucho
potencia y necesita mucho enfriamiento, así que creo que probablemente tendrá más sentido que Dojo funcione como uh
Amazon Web Services de manera que intentar venderlo a otra persona
um, así que lo máximo sería la forma más eficiente de operar dojo es que sea un servicio que usted
puede usar uh disponible en línea y donde puede entrenar sus modelos
más rápido y por menos dinero y que como el
Um World Transitions al software 2.0
Y eso está en la tarjeta de bingo, alguien que conozco tiene que saber cómo beber cinco tequilas
Um, así que veamos el software um 2.0
[Risas] Sí, usaremos mucha red neuronal
Entrenamiento, así que sabes que tiene sentido que con el tiempo, ya que hay más neuronal
Cosas netas que la gente querrá usar y el costo más rápido de menor costo neural
Sistema de entrenamiento neto, así que creo que hay muchas oportunidades en esa dirección
Hola, mi nombre es Ali Jahanian, gracias por este evento, es muy inspirador mi
La pregunta es um, me pregunto cuál es tu visión para uh
robots humanit que entienden nuestras emociones y arte y pueden contribuir a
Nuestra creatividad bien, creo que hay esta um, eres
ya viendo robots que al menos uh pueden generar muy interesantes
arte con como Dali Um y Dali 2. Um
Y creo que comenzaremos a ver una IA que en realidad puede generar incluso películas que tienen una coherencia
como películas interesantes y contar chistes, así que es bastante notable lo rápido que es la IA
Uh avanzando um en muchas empresas además de Tesla
Nos dirigimos a un futuro muy interesante y um sí
Ustedes quieren comentar sobre eso, sí, supongo que el robot optimista puede idear arte físico no solo arte digital
Puedes saber que puedes pedir algunos movimientos de baile en texto o voz y luego puedes producirlos en el futuro.
Es mucho como el corazón físico, no solo el arte digital, oh sí, sí, las computadoras pueden absolutamente
Haz un arte físico, sí, sí 100, sí, sí, me gusta el baile, toca el fútbol o lo que sea tú
um quiero decir que necesita ser más ágil, pero con el tiempo seguro
Muchas gracias por la presentación de los toboganes de piloto automático de Tesla que noté
que los modelos que estabas usando estaban muy motivados por modelos de idiomas y me preguntaba cuál es la historia de eso.
fue y cuánto de mejora dio pensé que esa era una elección curiosa realmente interesante de usar
Modelos de lenguaje para la transición de carril, por lo que hay dos aspectos de por qué hemos hecho la transición al modelado de idiomas, así que
la primera charla en voz alta y cierre está bien, lo tengo
Sí, los modelos de idiomas nos ayudan de dos maneras de la primera forma es que nos permite predecir los carriles que no podríamos tener
de lo contrario, como se mencionó anteriormente, básicamente cuando predijimos carriles de una especie de moda 3D densa, solo puedes
Modele ciertos tipos de carriles, pero queremos obtener esas conexiones entrecruzadas dentro de las intersecciones, no es posible hacerlo sin hacerlo un
Predicción de gráficos Si intenta hacer esto con una densa segmentación, simplemente no funciona.
problema a veces simplemente no tienes suficiente información visual para saber con precisión cómo se ven las cosas en el otro
lado de la intersección para que necesite un método que pueda generalizar y producir um, conoce predicciones coherentes
No quiero predecir dos carriles en tres carriles al mismo tiempo que desea comprometerse con uno en un modelo generativo como estos modelos de lenguaje, proporciona que
hola oh hola uh mi nombre es giovanni um sí gracias por la presentación
Eso es realmente bueno, tengo una pregunta para nuestro equipo FSD, así que para las redes neuronales, ¿cómo
Pruebe, como se realiza una unidad de prueba de software, como ¿tiene como un grupo o no sé?
miles o uh si uh casos donde
Entonces, la red neuronal de que después de entrenarlo tiene que pasarlo antes de liberarlo como un producto correcto, sí, sí
¿Cuáles son las estrategias de prueba de su unidad de software para esto básicamente, sí, me alegro de que hayas preguntado que hay como una serie de pruebas?
que hemos definido a partir de su prueba unitaria para el software en sí, pero luego para los modelos de red neuronal tenemos conjuntos VIP definidos donde
Sabes que puedes definirte si solo tienes un conjunto de pruebas grande, eso no es suficiente lo que encontramos que necesitamos como
Sofisticados conjuntos VIP de UH para diferentes modos de falla y luego los cuestionamos y los cultivamos durante el tiempo del
producto, así que a lo largo de los años tenemos como cientos de miles de ejemplos en los que hemos estado fallando en el pasado
que hemos curado y, por lo tanto, para cualquier modelo nuevo que probemos en toda la historia de estas fallas y luego
Sigue agregando a este conjunto de pruebas encima de esto, tenemos modos de sombra donde enviamos estos modelos en silencio a
el auto y recuperamos los datos de dónde están fallando o teniendo éxito, y hay un amplio programa de control de calidad.
Es difícil enviar una regresión, hay como nueve niveles de filtros antes de que llegue a los clientes, pero luego tenemos muy bien
infra para hacer esto todo eficiente y yo soy uno de los probadores de control de calidad, así que yo QA
el auto, sí, como un creador, sí, así que estoy constantemente en el auto solo siendo
hacer cola como lo que sea la última construcción de uh alfa que no se bloquee totalmente
Encuentra muchos errores uh hola um gran evento tengo una pregunta
sobre los modelos fundamentales para uh he visto que los grandes modelos que
Realmente puede cuando se escala con datos y parámetros del modelo desde GT3 a
Palma En realidad, ahora puede hacer razonamiento, ¿ves que es esencial uh desollado?
Up modelos fundamentales con datos y tamaño y luego al menos puede obtener un
Modelo de maestro correcto que potencialmente puede resolver todos los problemas y luego destilas a un modelo de estudiante es cómo
Ves modelos fundamentales relevantes para a los 100 quiero decir que es bastante similar a nuestro modelo de etiquetado automático, por lo que no lo hacemos.
Solo tenga modelos que funcionen en el automóvil, entrenamos modelos que están completamente fuera de línea que son extremadamente grandes que no pueden
Corre en tiempo real en el auto, así que solo corremos sobre los servidores que producen etiquetas realmente buenas
que luego pueden entrenar las redes en línea, así que esa es una forma de destilación de
Estos maestros modelos de estudiantes en términos de modelos de fundaciones estamos construyendo algunos realmente realmente grandes
Conjuntos de datos que sabes son múltiples petabytes y estamos viendo que algunas de estas tareas funcionan muy bien, cuando
tener estos grandes conjuntos de datos como la cinemática como mencioné el video en todas las cinemáticas de todos los objetos
y hasta la cuarta derivada y la gente pensó que no pudimos detectar con la velocidad de la profundidad de detección de cámaras
aceleración e imagine cuán precisos deben ser estos para que estos derivados de orden superior sean precisos y todo esto
proviene de este tipo de grandes conjuntos de datos y modelos grandes, por lo que estamos viendo el equivalente de los modelos de base a nuestra manera para
geometría y cinemática y cosas como las que quieres agregar cualquier cosa John
Sí, lo mantendré breve básicamente cada vez que entrenamos en un conjunto de datos más grande, vemos Big Bien básicamente cada vez que
Entrena en un conjunto de datos más grande, vemos grandes mejoras en el rendimiento de nuestro modelo y básicamente cada vez que inicializamos nuestro
Redes con usted conoce algún paso previo a la capacitación de alguna otra tarea auxiliar, básicamente vemos mejoras las
auto-supervisado o supervisado con grandes conjuntos de datos ayudan mucho
Hola, al principio, Elon dijo que Tesla estaba potencialmente interesado en construir inteligencia general artificial
sistemas dado el impacto potencialmente transformador de la tecnología como ese parece prudente invertir en
Técnica AGI Seguridad Uh Experiencia específicamente Sé que Tesla hace mucho
Investigación técnica de seguridad de IA estrecha AI Tenía curiosidad si Tesla tenía la intención de
Trate de generar experiencia en seguridad general de inteligencia artificial técnica específicamente
Bueno, si quiero decir, si comienza a parecer que vamos a hacer una contribución significativa al artificial
Inteligencia general, entonces, seguramente invertiremos en seguridad en la seguridad.
Debería ser una especie de autoridad reguladora a nivel gubernamental, tal como hay un
Autoridad reguladora de cualquier cosa que afecte la seguridad pública, por lo que tenemos una autoridad reguladora para aviones y
autos y UH tipo de alimentos y drogas y porque afectan la seguridad pública y la IA
También afecta la seguridad pública, así que creo que um y esto no es realmente algo que el gobierno lo que creo que entiendo todavía, pero yo
Creo que creo que debería haber un árbitro que se asegure de um o que esté tratando de asegurarse de que el público
Seguridad para uh agi um y piensas bien como lo que son
Los elementos que son necesarios para crear AGI como UH, el conjunto de datos accesibles es extremadamente
importante y si tienes una gran cantidad de autos y robots humanoides uh
procesamiento conoce petabytes de datos de video y
Datos de audio del mundo real uh al igual que los humanos que eso es que podría ser
El conjunto de datos más grande probablemente sea el conjunto de datos más grande UM porque además de eso puede
Obviamente, escanee incrementalmente en Internet um, pero lo que Internet no puede hacer es
es tener millones o cientos de millones de cámaras en el mundo real
Como dije con audio y y eh y otros sensores también, así que creo que nosotros
probablemente tendrá la mayor cantidad de datos um y probablemente la mayor cantidad de TR de
poder de entrenamiento, por lo tanto, probablemente uh haremos un
Contribución a AGI
Oye, me di cuenta de que el semi estaba allí, pero no hemos hablado demasiado de eso, me preguntaba el semi camión
¿Cuáles son los cambios de uh en los que estás pensando desde una perspectiva de detección? Me imagino que hay muy diferente
requisitos obviamente que solo un automóvil si y si no crees que eso es cierto por qué es cierto
eh no, creo que básicamente, uh, puedes conducir un auto, me refiero a pensar en lo que impulsa cualquier vehículo, es un biológico
red neuronal uh con uh con ojos con cámaras esencialmente, así que si um y realmente
¿Cuáles son sus sensores principales son uh dos cámaras en un cardán lento?
Gimbal lento um, esa es tu cabeza, así que si
Si um sabe si una red neuronal biológica con dos cámaras en un cardán lento puede conducir un camión semi, entonces
um si tienes como ocho cámaras con visión continua de 360 grados uh
operando a una velocidad de cuadro más alta y una velocidad de reacción mucho más alta, entonces creo que es obvio que debería poder conducir un semi o cualquier vehículo mucho
mejor que un humano hola mi nombre es akshay gracias por el
Evento y suponiendo que sepa que Optimus se utilizaría para diferentes casos de uso y
evolucionaría en diferentes piezas para estos casos de uso, ¿sería posible?
Para desarrollar e implementar diferentes componentes de software y hardware de forma independiente y implementarlos, ya sabes.
In the Optimus para que el desarrollo general de características sea más rápido para
Referencia Optimus a las preguntas
Está bien, no comprendimos, desafortunadamente, nuestra red neuronal no comprendió la pregunta
uh sí, muy bien la siguiente pregunta
Quiero cambiar un engranaje al piloto automático, así que um, cuando planean desplegar el
FSD beta a países que no sean nosotros y Canadá y también mi próxima pregunta es
¿Cuál es el cuello de botella más grande o la barrera tecnológica que crees en la parte del orden actual de la pila y cómo
Usted imagina resolver que hacer el piloto automático es considerable mejor que los humanos en términos de una matriz de rendimiento
garantía de seguridad y la confianza humana Creo que también estás coincidiendo con 4V uh FSTB
o lo que sea que sean chicos van a combinar la carretera y la ciudad como una sola pila y algo de arquitectura uh
Gran mejora, ¿puedes experimentar un poco en eso? Gracias, bueno, eso es un montón de
Preguntas Bueno, nosotros, tenemos la esperanza de poder pensar
Desde un punto de vista técnico, la versión beta de FSD debería ser posible enrollar que SFSD beta uh
en todo el mundo a fines de este año, pero sabemos por mucho
países que necesitamos aprobación regulatoria um, por lo que estamos algo cerrados por la aprobación regulatoria en otros países
um pero yo sabes yo, pero creo que desde el punto de vista técnico estará listo para
Ve a una versión beta mundial a fines de este año y hay un gran
Mejora que esperamos lanzar el próximo mes uh que siempre será especialmente bueno en uh
Evaluar la velocidad del tráfico cruzado de movimiento rápido y un montón de otras cosas para que cualquiera elabore
Para los objetos, sí, supongo, así que solía haber muchas diferencias entre la producción.
Autopilot y la beta completa sin conductor, pero esas diferencias se han vuelto cada vez más pequeñas con el tiempo, creo
Hace solo unos meses, ahora usamos la misma pila de detección de objetos de la misma visión tanto en FSD como en la producción
Autopilot en todos los vehículos um todavía hay algunas diferencias de la principal como la forma en que nosotros
Predecir carriles en este momento, por lo que actualizamos el modelado de carril para que pueda manejar estas geometrías más complejas como mencioné en la charla en
Autopiloto de producción todavía usamos un modelo de carril más simple, pero estamos extendiendo nuestros modelos beta FSD actuales para funcionar en
Todo tipo de escenarios de carreteras también uh sí y la versión de uh fst
beta que conduzco realmente tiene la pila integrada, por lo que esto usa el
FSD Stack uh tanto en las calles de la ciudad como en la carretera y me funciona bastante bien para mí, pero necesitamos validarlo en
Todo tipo de clima, como la fuerte lluvia de nieve, um y solo asegúrese de que sea
Trabajar como mejor que la pila de producción uh en usted conoce en una amplia gama
de entornos uh, pero estamos bastante cerca de eso, quiero decir, creo que es que no sé tal vez
Definitivamente estaré antes de fin de año y tal vez noviembre, sí, en nuestras unidades personales, el FSD
pila en las unidades de carreteras ya mucho mejor que la pila de producción que tenemos y esperamos incluir también el
Pila de estacionamiento como parte de la pila de FSC antes de finales de este año, por lo que básicamente nos traerá
Siéntese en el automóvil en el estacionamiento y conduzca hasta el final del estacionamiento en un lugar de estacionamiento antes del final de esto
año sí y en términos de igual el fundamental que la métrica fundamental para optimizar es
Um, cuántas millas por entre una intervención necesaria así
um simplemente mejorando enormemente cuántas millas puede conducir el automóvil en su totalidad
autonomía antes de que se requiera una intervención que sea una seguridad crítica um así
Sí, esa es la métrica fundamental que estamos midiendo cada semana y estamos haciendo radicales
mejoras en eso hola gracias hola muchas gracias por
La presentación muy inspiradora mi nombre es Daisy, en realidad tengo una no técnica
Pregunta para ti tengo curiosidad, eh, si has vuelto a tus 20 años, ¿cuáles son algunos de
Las cosas que desearías saber en ese entonces cuáles son algunos consejos que te darías a tu yo más joven.
Bueno, estoy tratando de averiguar algo útil para decir
sí, sí, me uní a Tesla sería una cosa um
um, sí, creo que generalmente intenta exponerse a tantas personas inteligentes
como sea posible y leo muchos libros
Um sabes que hago eso hizo eso aunque uh
Entonces, creo que hay algún mérito para que también
Uh, te gusta no ser necesariamente demasiado intenso, y me gusta disfrutar el
Momento un poco más, diría a 20 o 20 algo que yo solo para ti sabes uh
detener y oler las rosas ocasionalmente sería una buena idea
Um sabes que es como cuando estamos desarrollando el cohete Falcon One
y uh en el atolón de la cuadrilina y tuvimos esta hermosa isla pequeña que
Estamos desarrollando el cohete y no una vez que durante todo ese tiempo tomé una copa en el
playa, estoy como bien, debería haber tomado una copa en la playa que hubiera estado bien
Muchas gracias, creo que has emocionado a todas las personas robóticas con
Con Optimus uh esto se siente muy parecido a hace 10 años en la conducción, pero como uh
Conducir ha demostrado ser más difícil de lo que realmente parecía hace 10 años, ¿qué sabemos ahora que no hicimos hace 10 años?
Eso haría que, por ejemplo, agi en un humanoide sea más rápido
Bueno, quiero decir, me parece que Hei está avanzando muy rápidamente um
Apenas pasa una semana sin un anuncio significativo y uh sí, quiero decir
En este punto, como la IA parece ser capaz de ganar en casi cualquier juego basado en reglas.
uh es capaz de crear arte extremadamente impresionante um
participar en conversaciones que son muy sofisticadas, ya sabes
escribir ensayos y estos estos siguen mejorando
um y hay mucho más que tantas personas más talentosas trabajando
en la inteligencia artificial y el hardware está mejorando, creo que es una AI en un súper
Como una fuerte curva exponencial de mejora independiente de lo que hacemos en
Tesla um y obviamente nos beneficiaremos de esa curva exponencial de
La mejora con Ai um accesible también es muy
bueno en los actuadores que los motores conocen a los motores las cajas de cambios controladores de la electrónica de alimentación baterías
sensores um y um sabes realmente como yo digo que sabes
La mayor diferencia entre el robot sobre cuatro ruedas y el robot con brazos y piernas es conseguir los actuadores.
en realidad es un problema de actuadores y sensores um y obviamente sabes cómo
controlar esos actuadores y sensores, pero es un sí, los actuadores y los sensores y cómo
Controle los actuadores Es un yo que sé donde debes tener como los ingredientes necesarios para crear un
Robot convincente y lo estamos haciendo así
Hola Elan uh, en realidad estás llevando a la humanidad al siguiente nivel literalmente Tesla y
Estás llevando a la humanidad al siguiente nivel, así que dijiste Optimus Prime uh
Optimus se utilizará en la fábrica de Next Tesla, mi pregunta es una nueva Tesla
La fábrica estará completamente ejecutada por el programa Optimus y
y cuándo puede ordenar en general un humanoide, sí, creo que lo sabrán, sabrán que somos
Voy a comenzar a optimistas con tareas muy simples en la fábrica um, tal vez, tal vez como cargar
Aparte como viste en el video cargando una parte uh para que se carguen aparte de uno
lugar a otro o cargando una parte en UM un de nuestro robot más convencional
células uh para ti sabes uh que solucionan el cuerpo para que comenzaremos a saber
Solo intentamos cómo lo hacemos útil en absoluto y luego expandir gradualmente el número de situaciones en las que está
útil um y creo que el número de situaciones en las que Optimus
es útil, ¿crecerá exponencialmente um como realmente realmente rápido?
um en términos de cuándo la gente puede ordenar uno, no sé, creo que no está tan lejos
lejos um bueno, creo que quieres decir cuándo la gente puede recibir uno
um, así que no sé que soy como diría que probablemente dentro de tres años no soy más
de cinco años en tres o cinco años probablemente podría recibir un optimus
Siento la mejor manera de hacer el progreso de AGI para involucrar a la mayor cantidad de personas inteligentes en todo el mundo como sea posible y administrada
El tamaño y el recurso de Tesla en comparación con las compañías de robots y dada el estado de la investigación de la humanidad en este momento
no tendría sentido que el tipo de tesla see de código abierto algunos de los
Piezas de hardware de simulación Creo que Tesla aún puede ser el juego de plataformas dominante
donde puede ser algo como el sistema operativo Android o como las cosas de iOS para todo el humano o la investigación sería que
algo que en lugar de mantener el optimus solo para los investigadores de Tesla o el
La fábrica misma puede abrirlo y dejar que todo el mundo explore la investigación humana
Um, creo que tenemos que tener cuidado de que Optimus sea potencialmente usado de manera que sea mala porque esa es una
de las posibles cosas que hacer, así que creo que sabrías
Proporcione optimistas donde puede proporcionar instrucciones a los optimistas, pero donde esas instrucciones
¿Sabes gobernado por algunas leyes de robótica um que no puedes superar?
Entonces sabes no hacer daño a los demás y a uh
Hubiera pensar que probablemente bastantes cosas relacionadas con la seguridad con Optimus, sí, así que bien lo haremos
Solo toma algunas preguntas más y luego y luego, y luego gracias a todos por venir
Preguntas um una profunda y otra en lo profundo para Optimus ¿Qué es el
actual y cuál es el ancho de banda del controlador ideal y luego en la pregunta más amplia.
publicidad para la profundidad y amplitud de la empresa de qué se trata de manera única
Tesla que permite que cualquiera quiera abordar el ancho de banda
Pregunta Sí, sí, así que el ancho de banda técnico del disfraz
Está bien para la pregunta de ancho de banda que tienes que entender o descubrir cuál es el
tarea que quería hacer y cuál es el gratuito si tomas una transformación de frecuencia de esa tarea, ¿qué es lo que es?
Quieres que hagan tus extremidades y ahí es donde obtienes tu ancho de banda, no es un número que puedes específicamente decir que necesitas entender tu uso.
Caso y ahí es de ahí es donde proviene el ancho de banda de uh, ¿cuál es la pregunta amplia?
No recuerdo el asunto de la amplitud y la profundidad, puedo responder a la amplitud y la profundidad, pero sí
Estaba interesante en la parte posterior de la pregunta, creo que probablemente terminaremos aumentando el ancho de banda o tú
saber cuál se traduce en el efecto de la destreza y el tiempo de reacción del robot del robot
um, como si pudieras salvar, no es un hertz um y tal vez no tengas que irte
todo el camino a 100 hertz uh pero no sé tal vez 10 25, no lo sé
Con el tiempo, creo que el ancho de banda aumentará bastante uh o traducirá a la destreza y la latencia
Um uh querrías minimizar eso con el tiempo uh sí, minimizar la latencia maximizar la destreza
um quiero decir en términos de amplitud y profundidad um, supongo que sé que tenemos
Somos una empresa bastante grande en este momento, por lo que tenemos muchas áreas diferentes de especialización que necesariamente tenemos que
Desarrollar para hacer autónomos o para fabricar automóviles eléctricos y luego para hacer eléctrico autónomo
autos um que tenemos solo que me refiero a que Tesla es como una serie completa de startups básicamente y
Um hasta ahora, casi todos han sido bastante exitosos, así que debemos estar haciendo algo bien
Um y yo sabes que considero una de mis responsabilidades centrales.
Uh grandes ingenieros pueden florecer y creo que en muchas empresas
No conozco la mayoría de las empresas, ¿si alguien es un ingeniero realmente talentoso, no pueden realmente?
Uh, sus talentos son suprimidos en muchas empresas y es usted.
y algunas de las empresas que el talento de ingeniería se suprime de una manera que es, tal vez no obviamente,
Pero, pero donde es tan cómodo y pagaste mucho dinero y tú, pero eres la producción que realmente tienes que
El producto es tan bajo que es como una trampa de miel que conoces, así que hubo algunos
Trap de miel Uh lugares en Silicon Valley uh, donde no necesariamente no parecen lugares malos para los ingenieros, sino
has dicho como entró un buen ingeniero y qué salieron
y la producción de ese talento de ingeniería parece muy bajo
A pesar de que parece estar disfrutando de sí mismos, por eso lo llamo, hay algunas compañías de trampa de miel en
Silicon Valley Uh Tesla no es una trampa de miel que exigimos y es como si estuvieras haciendo mucho
um y va a ser realmente genial, y es tú que no serán fáciles
Pero uh, si eres un ingeniero súper talentoso, tu talento se usará
Piense en mayor medida que en cualquier otro lugar
Sabes SpaceX también de esa manera, así que Highline uh uh tengo dos preguntas, así que
Ambos al equipo del piloto automático, así que la cosa es como he estado siguiendo tu progreso durante los últimos años, así que hoy
Has realizado cambios como la detección Lean como dijiste que, como anteriormente, estás haciendo segmentación semántica instantánea, ahora ustedes son
modelos de transferencia construidos para construir los carriles, entonces, ¿cuáles son otros otros desafíos comunes que ustedes
se enfrentan en este momento como lo que está resolviendo en el futuro como ingeniero curioso para que como nosotros como investigador podamos trabajar
Al comenzar a trabajar en ellos y la segunda pregunta es como si tenga mucha curiosidad sobre el motor de datos como usted.
A los chicos les ha dicho un caso como donde se detiene el auto, así que, ¿cómo está encontrando casos que son muy similares?
a eso de los datos que tiene como tan poco más en el motor de datos sería genial, así que eso es bien
um comenzaré a responder la primera pregunta uh usando la red de ocupación como ejemplo, así que uh lo que vio en la presentación
No existimos hace un año, así que solo pasamos un año en el tiempo que tengo una relación con más de 12 ocupación
Red y tiene un modelo de base en realidad para representar todo
mundo físico en todas partes y siempre la condición es realmente
realmente desafiante, así que solo hace más de un año, nos gusta conducir un 2D donde si hay una guerra y
Dice la curva que representamos con el mismo borde estático, que obviamente es que no sabes que no es ideal, que hay un
Gran diferencia entre una curva y una pared cuando conduces, tomas diferentes decisiones bien, así que después de darnos cuenta de que
Tenemos que ir a 3D, tenemos que volver a sincronizar todo el problema y pensar en cómo abordamos eso, así que esto lo hará
Sea como un ejemplo de desafíos que tenemos uh uh tenemos una conquista en el último año
Sí, para responder a la pregunta sobre cómo obtenemos ejemplos de los autos que detienen los autos, hay algunas formas de hacerlo
sobre esto, pero dos ejemplos son uno que podemos desencadenar para desacuerdos dentro de nuestras señales, así que digamos que estacionado
Los parpadeos entre estacionado y la conducción lo activarán y el segundo es que podemos aprovechar más del modo de sombra
Lógica Entonces, si el cliente ignora el automóvil, pero creemos que deberíamos detenernos, también recuperaremos esos datos, por lo que estos son solo
diferente como varias lógicas de activación que nos permite recuperar esas campañas de datos
hola uh gracias por la increíble presentación muchas gracias uh, así que ahí
son muchas empresas que se están centrando en el problema AGI y una de las razones por las que es un problema tan difícil es
Porque el problema en sí es muy difícil de definir que varias compañías tengan varias definiciones diferentes en las que se centran
Diferentes cosas, ¿qué es Tesla?
Bueno, bueno, en realidad no estamos específicamente enfocados en AGI, simplemente soy
Decir que HGI es así, es probable que sea una propiedad emergente de lo que estamos
haciendo um porque estamos creando todos estos autos autónomos y humanoides autónomos
um que en realidad están dentro de un flujo de datos verdaderamente gigantesco que está llegando
y y siendo procesado um es, con mucho, la mayor cantidad de datos del mundo real y los datos que no puede obtener
Solo busca en Internet porque tienes que estar en el mundo e interactuar con las personas e interactuar con los caminos y solo tú
saber que la tierra es un gran lugar y la realidad es desordenada y complicada um, así que creo que es como uh
Es probable que solo sea probable que sea una propiedad emergente de si tiene que conocer decenas o cientos de millones de
Vehículos autónomos y tal vez incluso un número comparable de humanoides, tal vez más que eso en el frente humanoide
um bueno, esa es la mayor cantidad de datos um y si ese video se está procesando
Parece probable que sepa que los autos definitivamente se volverán mucho mejor que los humanos
Los conductores y los robots humanoides se volverán cada vez más
tal vez indistinguible de los humanos y, por lo tanto, como dijiste que tienes un
Propiedad emergente de Agi um
y posiblemente los que sabes que los humanos colectivamente son una especie de súper inteligencia, especialmente como nosotros
Mejorar la velocidad de datos entre los humanos, quiero decir, creo que parece estar en los primeros días que era Internet
como si Internet fuera como la humanidad um adquiriendo un sistema nervioso donde de repente cualquiera
El elemento de la humanidad podría conocer todo el conocimiento de los humanos conectando
a Internet casi todo el conocimiento o ciertamente una gran parte de él, mientras que anteriormente uh intercambiaríamos
Información por ósmosis por usted sabe que nos gustará para transferir datos para que tenga que escribir una carta
Alguien tendría que llevar la carta por persona a otra persona y luego un montón de cosas intermedias y
Entonces fue como esta posición, sí, quiero decir que es increíblemente lento cuando piensas en
um e incluso si estuvieras en la biblioteca del congreso, todavía no tenías acceso a toda la información del mundo y tú
ciertamente no pudo buscarlo y sé que obviamente muy pocas personas están en la biblioteca del Congreso, así que
um me refiero a uno de los grandes um una especie de elementos de igualdad
como Internet es el mayor igual al igual que en la historia en
Términos de acceso a información o conocimiento um En cualquier estudiante de historia, creo
estaría de acuerdo con esto porque sabes que regresas mil años, había muy pocos libros como
Me gusta y los libros serían increíblemente caros, pero solo unas pocas personas sabían cómo leer y solo si un aún más pequeño
Número de personas incluso tenía un libro Ahora, mírelo como usted, puede acceder a cualquier libro al instante que pueda aprender
cualquier cosa para básicamente gratis es bastante increíble, así que
Sabes que me preguntaron recientemente qué período de la historia preferiría ser
A lo sumo y mi respuesta fue ahora mismo
Este es el momento más interesante de la historia y leo mucha historia.
Así que vamos a hacer todo
y volver a una de las primeras preguntas que respondería como si pudieras lo que ha sucedido con el tiempo
Con respecto al piloto automático de Tesla es que tenemos solo el
Las redes neuronales se han obtenido gradualmente absorbido gradualmente más y más software y en el límite, por supuesto, usted
podría decir simplemente tomar los videos como los vieron el auto y compararlos con estos
Las entradas de dirección del volante y los pedales que son entradas muy simples y, en principio, podría
Entrena sin nada en el medio porque eso es lo que los humanos están haciendo con una red neuronal biológica que puedes entrenar
Basado en el video y uh y qué entrena el video es el movimiento de
El volante y los pedales sin otro software intermedio todavía no estamos allí, pero gradualmente está
Yendo en esa dirección oh, espera la última pregunta
¿Vas a ir?
Preguntas bien allí, um hola uh gracias por una gran presentación tan bien, la vieja pregunta Última
Um con FSD utilizando tanta gente, ¿piensas cuál es el COM cómo evalúa el riesgo de la empresa?
tolerancia en términos de estadísticas de rendimiento y cree que debe haber más transparencia o regulación de terceros sobre cómo lo bueno
suficiente y um definiendo umbrales como para rendimiento uh en todo
algunas millas, seguro que sabes que yo sabes
El diseño número uno uh requisito en Tesla es la seguridad, así que um, y eso
Entran en todos los ámbitos, en términos de seguridad mecánica del automóvil, tenemos la probabilidad más baja de lesiones de cualquier automóvil.
alguna vez probado por el gobierno solo por una seguridad mecánica pasiva esencialmente
Estructura de choque y bolsas de aire y de todo lo que no tenemos lo mejor.
Calificación de seguridad activa también y creo que va a llegar al grano
Donde el acto de seguridad es tan ridículamente bueno que es que es como absurdamente mejor que un humano
Um y luego con respecto a UH Autopilot um publicamos esto en general
Hablando las estadísticas en Miles de um conducidas con autos que no tienen
autonomía o autos Tesla sin autonomía con una especie de hardware One Hardware Two
Hardware tres um y luego uh los que están en beta FSD
um y vemos mejoras constantes en todo el camino um y sabes que a veces hay esto
dicotomía de ustedes, ¿sabes si esperas hasta que el auto sea como no sé?
Tres veces más seguro que una persona antes de desplegar cualquier tecnología, pero creo que eso es realmente moralmente incorrecto
um en el punto en el que crees que agregar autonomía uh se reduce
lesión y muerte um Creo que tienes la obligación moral de desplegarlo, aunque vas a
ser demandado y culpado por muchas personas porque las personas cuyas vidas que hayas salvado no saben que sus vidas son
Salvados y las personas que las personas que ocasionalmente mueren o se lesionan definitivamente o su patrimonio lo hace
Que fue que sabes lo que haya un problema con el piloto automático de piloto automático, por eso tienes que mirar el AT
Los números en una especie de millas totales impulsadas cuántos accidentes ocurrieron cuántos accidentes fueron graves cuántos
muertes y sabes que tenemos más de tres millones de autos en la carretera, así que esto es que es un montón de millas impulsados
Todos los días no va a ser perfecto, pero lo que importa es que es muy claramente más seguro que no
desplegándolo um, sí, así que creo que la última pregunta
Creo que sí, así que gracias, ¿cuál es la última pregunta aquí?
ok um, sí, lo tengo bien, hola hola
um no trabajo en hardware, así que tal vez el equipo de hardware y ustedes pueden
ilumíname, por qué se requiere que haya simetría
um en el diseño de Optimus porque los humanos, tenemos la mano, correctamente nosotros, nosotros
¿Usamos algún conjunto de músculos más que otros con el tiempo, hay desgaste?
uh, así que tal vez comience a ver algunas fallas conjuntas o algún actuador
fallas más con el tiempo Entiendo que esto es extremadamente previo al escenario
Um también nosotros, como humanos, hemos basado tanta fantasía y ficción sobre súper humanos
capacidades como todos no queremos caminar allí queremos extender nuestros brazos y como todos tenemos
Estos conoces muchos diseños fantásticos de fantasía, así que teniendo en cuenta
todo lo demás que está sucediendo en términos de baterías e intensidad de
Calcule tal vez pueda aprovechar todos esos aspectos para que se les ocurra algo
Bueno, no sé más interesante en términos de tu robot que eres
construyendo y espero que puedas explorar esas instrucciones, sí, quiero decir, creo que sería genial
tienes como sabes que el gadget del inspector real es bastante dulce, así que sí, quiero decir que ahora sabes
Solo quiero hacer un humanoide básico que funcione bien y nuestro objetivo es el camino más rápido
A un robot humanoide útil útil, creo que esto es esto que nos motivará en realidad
literalmente um y asegúrate de que estemos haciendo
Algo útil como una de las cosas más difíciles de hacer es ser útil.
En realidad, y luego, tener una alta utilidad bajo la curva, como cuántas personas ayudaron a tiempo que conoces y
¿Cuánta ayuda le brindó a cada persona en promedio?
Y luego, ¿cuántas personas ayudó a la utilidad total?
que a la gente le gusta un gran número de personas es tan increíblemente duro que se aturde
La mente um sabes por eso podría decir que como el hombre hay una gran diferencia entre una empresa que tiene un producto turno y uno no está seguro de que el producto sea un
Juego, esto es noche y día um y luego incluso una vez que envíes el producto, ¿puedes hacer que el costo sea el valor del
La salida vale más que el costo de la entrada que nuevamente es increíblemente difícil, especialmente con el hardware, así que
um Pero creo que con el tiempo creo que nos enfriamos para hacer cosas creativas y tener como ocho brazos y lo que sea
um y tener diferentes versiones uh y tal vez sepas que habrá algo de hardware
como empresas que pueden agregar cosas a un optimista como tal vez lo hemos
Sabe agregar en un puerto de alimentación o algo así o adjuntarlos, puede agregarlo sabe agregar archivos adjuntos a su
Optimista como si pueda agregarlos a su teléfono, um, podría ser muchas cosas geniales que se pueden hacer con el tiempo y podría hacerlo
Quizás sea un ecosistema de pequeñas empresas o empresas que hacen complementos para
Optimus Entonces, con eso, solo agradecer al equipo por su arduo trabajo
Uh ustedes son increíbles y uh sí, y gracias
Usted y Uh gracias a todos por venir y por todos en línea gracias por sintonizar
Um y creo que este será uno de esos excelentes videos donde puede que le guste si puede avanzar rápidamente a los bits
que encuentres más interesante, pero tratamos de darte una tremenda cantidad de detalles, literalmente para que puedas ver
el video a su tiempo libre y puede concentrarse en las partes que le parece interesante y omitir las otras partes uh
Así que gracias a todos es y haremos esto para hacer esto todos los años y podríamos hacer una parte de un podcast mensual incluso
um uh, entonces, pero creo que será, ¿sabes?
Llevárate para el viaje y me gusta mostrarte, ¿qué están pasando?