O CEO da Tesla, Elon Musk, revelou recentemente o Tesla Bot da empresa. O robô de codinome Optimus atravessou o palco, acenou com a mão e balançou os braços em um movimento de dança em baixa velocidade. Musk prevê que o robô poderá custar US$ 20 mil dentro de três a cinco anos, se tudo correr conforme o planejado. Mas a questão é: o que isso pode fazer por nós. Mas antes de entrarmos nisso, vamos dar uma olhada nos principais dispositivos que impulsionam o Tesla Bot.
Atuadores Tesla Bot
O Atuadores são o principal sistema de acionamento de qualquer robô. Você poderia dizer que um robô nada mais é do que um PC com peças móveis, ou em outras palavras, um Robô é um PC com atuadores e sensores. A Tesla desenvolveu seus próprios Atuadores para o Bot, utiliza 3 tipos de atuadores rotativos e 3 tipos de Atuadores Lineares.
Se você está se perguntando por que a Tesla não usou atuadores lineares padronizados como o FIRGELLI atuador, é porque eles têm várias restrições, o que significa que eles precisam desenvolver seus próprios sistemas para que os robôs sejam leves, eficientes em termos de energia, alta densidade de potência e baixo custo. A Tesla afirmou que deseja levar o Bot ao varejo por US$ 20.000 cada. Isso por si só é uma tarefa difícil para algo que exigirá 23 atuadores e um PC poderoso, muitos sensores e uma bateria para durar mais do que algumas horas, além de um esqueleto forte para manter tudo unido.
Atuadores Lineares Tesla Bot
Os Atuadores Lineares desenvolvidos pela Tesla são altamente específicos para uma função específica, o que significa que eles não seriam de muita utilidade para qualquer outra aplicação que não fosse um Robô. Seus atuadores empregam um sistema de rolo planetário, como Tesla o chama, mas isso é basicamente um código para o projeto de fuso de esfera e, em vez de uma bobina de armadura magnética tradicional no meio do motor, eles decidiram usar um projeto de motor com núcleo sem escova. Isso significa que o design do fuso esférico é muito eficiente e usa menos energia, mas também é mais caro. E eles usam um sistema de energia sem escova, o que significa que a vida útil será significativamente mais rápida e permite modos de acionamento altamente específicos controlados pelo software.
O comprimento do percurso é de apenas cerca de 2" e, como a imagem mostrava eles levantando um piano de 500 kg, isso representa muito peso. Você pode se perguntar por que ele precisa levantar tanto peso? Bem, isso é porque, quando instalado em um esqueleto de metal, o deslocamento dos atuadores precisa amplificar o movimento do que está se movendo. Portanto, se estiver movendo a perna de um robô, a perna precisa ser capaz de se mover cerca de 150 graus, ou mais de 60 centímetros de comprimento, a perna precisa balançar. cerca de zero a um arco de 3 pés. O corpo humano que evoluiu ao longo de 100.000 anos permite que nós, humanos, façamos isso usando os músculos das pernas, mas conseguir um atuador linear para fazer isso não é uma tarefa fácil. Portanto, o ponto que quero dizer é: O que estou fazendo é que, embora o Atuador possa levantar 500Kg de peso em mais de 2 polegadas, uma vez que os atuadores sejam conectados a uma alavanca, a força é reduzida significativamente, dependendo da taxa de alavancagem, mas a velocidade aumenta, o que torna uma boa negociação -desligado.
Apresentação do bot Tesla.
Aqui está o que o próprio Tesla tinha a dizer sobre a última apresentação do Bot que fizeram em 30 de setembro de 2022
Elon Musk apresenta: WTemos algumas coisas realmente interessantes para mostrar a você. Acho que você ficará bastante impressionado. Quero definir algumas expectativas em relação ao nosso robô Optimus, como você sabe no ano passado, era apenas uma pessoa em uma roupa de robô, mas não percorremos um longo caminho e acho que você sabe, comparado a isso, é vai ser muito impressionante. E falaremos sobre os avanços na IA para a condução totalmente autônoma, bem como como eles se aplicam a maisgeralmente para problemas de IA do mundo real, como um robô humanóide e até mesmo indo além disso. Acho que há algum potencial de que o que estamos fazendo aqui na Tesla possa dar uma contribuição significativa para a AGI, e acho que realmente nos diz uma boa entidade para fazer isso do ponto de vista de governança, porque somos uma empresa de capital aberto, temos um classe de ações e isso significa que o públicocontrola Tesla e eu acho que isso é realmente uma coisa boa, então se eu enlouquecer, você pode me demitir issoé importante talvez eu não seja louco, não sei. Então, sim, vamos falar muito sobre nosso progresso no piloto automático de IA, bem como o progresso no dojo, e então vamos trazer a equipe e fazer uma longa pergunta e resposta para que você possa fazer perguntas difíceis questões. O que você quiser, perguntas existenciais, perguntas técnicas, se você quiser ter o máximo de tempo possível para perguntas e respostas, então vamos ver se você adivinha o que acontece diariamente.
Olá pessoal, sou Milan, trabalho no piloto automático e é borracha, sou Lizzy, engenheira mecânica no projeto também, ok, então devemos trazer o Bot antes de prosseguirmos pela primeira vez, testamos este robô sem nenhum guindaste de suporte de backup
mecanismos mecânicos sem cabos nada sim, quero me juntar a vocês
esta noite, mas foi a primeira vez, vamos ver você pronto, vamosA propósito, este é literalmente a primeira vez que o robô operou sem uma corda esteve no palco esta noite, é isso, então o robô pode realmente fazer muito mais do que acabamos de mostrar. só não queria que ele caísse de cara, então vamos mostrar alguns vídeos agora do robô fazendo um monte de outras coisas, sim, que são menos arriscadas.
Sim, queríamos mostrar um pouco mais do que fizemos nos últimos mesesseparados e apenas andando e dançando no palco e apenas um começo humilde, mas você pode ver as redes neurais do piloto automático funcionando como
é apenas treinado novamente para o botão diretamente naquela nova plataforma que é meu regador, você pode veruma visão renderizada que é o robô qual é o mundo que o robô vê então está identificando muito claramente objetos como este é o objeto que ele deve pegar. Usamos o mesmo processo que usamos para o piloto automático para coletar dados para treinar suas redes que então implantamos no
robô esse é um exemplo que ilustra um pouco mais a parte superior do corpo
algo que gostaríamos de tentar definir em alguns meses, nos próximos meses, eu diria com perfeiçãoesta é realmente uma estação real na fábrica de Fremont onde está funcionando.
Essa não é a única coisa que temos para mostrar hoje, então o que você viu foi o que chamamos de Bumble C, esse é o nosso tipo de robô de desenvolvimento bruto usando atuadores semi-prontos para uso, mas na verdade já demos um passo além do que isso a equipe fez um trabalho incrível e na verdade temos um bot otimista com um
totalmente Tesla projetado em ambos os atuadores sistema de controle de bateriatudo que ainda não estava pronto para andar, mas acho que vai andar em algumas semanas, mas queríamos mostrar a vocês o robô e algo que está bastante próximo do que entrará em produção, e mostrar todas as coisas que ele pode faça isso, vamos trazê-lo para fora
Esperamos ter na unidade de produção da Optimus algo que seja a capacidade
para mover todos os dedos de forma independente, mova o polegar, tenha dois
graus de liberdade, por isso tem polegares oponíveis e mão esquerda e direita, então
é capaz de operar ferramentas e fazer coisas úteis, nosso objetivo é fazer um trabalho útil
robô humanóide o mais rápido possível e também o projetamos usando o
mesma disciplina que usamos no projeto do carro, ou seja, projetá-lo para fabricação de tal forma que seja possívelfazer o robô em alto volume, baixo custo e alta confiabilidade, então isso é extremamente importante. Quero dizer, todos vocês já viram demonstrações impressionantes de robôs humanóides e isso é ótimo, mas o que está faltando? não tenho a inteligência para
navegam pelo mundo sozinhos e também são muito caros,e fabricado em baixo volume, enquanto esta é uma sociedade otimista e um robô extremamente capaz, mas fabricado em volume muito alto, provavelmente em última análise, milhões de unidades e espera-se que custe muito menos do que um carro.
Eu diria que provavelmente menos de vinte mil dólares seria o meu palpite
o potencial para o otimismo é, creio, apreciado por pessoas muito eficazes
pessoal, ei, como sempre, as demonstrações do Tesla estão chegandoentão, tudo bem, isso é bom, isso é bom, sim, as equipes se esforçaram e a equipe colocou uma quantidade incrível de trabalho. super orgulhoso do que fizeram é que realmente fizeram um excelente trabalho só gosto de dar uma mão a toda a opção desta equipa para que saibam que agora ainda há muito trabalho a fazer para refinar o Optimus e melhorá-lo, obviamente, esta é apenas a versão um do Optimus e é por isso que estamos realizando este evento que é para convencer algumas das pessoas mais talentosas do mundo como vocês a se juntarem à Tesla e ajudarem a torná-lo realidade e a concretizá-lo em escala tal que pode ajudar milhões de pessoas e o potencial que ela tem é realmente confuso porque você tem que dizer o que é uma economia, uma economia é uh, uma espécie de entidades produtivas vezes a produtividade uh Capital vezes produção produtividade per capita no ponto em que não há limitação de capital, não está claro o que uma economia significa nesse ponto, uma economia se torna quase infinita, então o que você sabe foi levado a bom termo no cenário esperançosamente benigno, isso significa um futuro de abundância, um futuro onde não há pobreza onde as pessoas que você
pode ter o que quiser em termos de produtos e serviçosé realmente uma transformação fundamental da civilização como a conhecemos, obviamente, queremos ter certeza de que a transformação seja positiva e segura, mas é também por isso que acho que a Tesla, como entidade que faz isso, é uma classe única de ações negociadas publicamente de propriedade do O público é muito importante e não deve ser esquecido. Acho que isso é essencial porque, se o público não gostar do que a Tesla está fazendo, o público poderá comprar ações da Tesla e votar de forma diferente.
Isso é importante, é muito importante que eu não possa simplesmente fazer o que quero, você sabeàs vezes as pessoas pensam que não, mas não é verdade, então você sabe que é muito importante que a entidade corporativa que faz isso acontecer seja algo que o público possa influenciar adequadamente e então acho que a estrutura da Tesla é ideal para isso e como Eu disse que você sabe que os carros autônomos certamente terão um impacto tremendo no mundo. Acho que eles vão melhorar o
produtividade dos transportes em pelo menos meia ordem de grandeza, talvez umordem de grandeza, talvez mais um otimista, acho que tem talvez um potencial de duas ordens de grandeza Melhoria na produção econômica, como se não estivesse claro, não estivesse claro qual é o limite, mas precisamos fazer isso da maneira certa, precisamos fazer fazê-lo com cuidado e segurança e garantir que o resultado seja benéfico para a civilização e que a Humanidade, uma vez que eu não possa, isso também é extremamente importante, obviamente, então e espero que você considere se juntar à Tesla para atingir esses objetivos na Tesla, nós realmente me importo em fazer a coisa certa aqui, sempre aspiro a fazer a coisa certa e realmente não pago o caminho para o inferno com boas intenções e acho que o caminho para o inferno é principalmente pavimentado com más intenções, mas de vez em quando há uma boa intenção em aí, então queremos fazer isso, faça a coisa certa, então você sabe, considere se juntar a nós e ajudar a fazer isso acontecer, vamos passar para a próxima fase, obrigado Elon
Tudo bem, então você viu alguns robôs hoje, vamos fazer uma rápida recapitulação da linha do tempo, então no ano passado revelamos o bot Tesla
conceito, mas um conceito não nos leva muito longe, sabíamos que precisávamos de uma plataforma real de desenvolvimento e integração para
obter aprendizados da vida real o mais rápido possível para aquele robô que apareceu e fez a pequena rotina para vocês, nós
construí isso em seis meses, trabalhando na integração de software. Atualizações de hardware ao longo dos meses desde então, mas
em paralelo também estamos projetando a Próxima Geração essa aqui
então esse cara está enraizado na base do processo de design de veículos, você sabe que estamos aproveitando tudo isso
esses aprendizados que já temos, obviamente, muita coisa mudou desde o ano passado, mas há algumas coisas
que ainda são os mesmos, você notará que ainda temos um foco realmente detalhado na verdadeira forma humana que pensamos que
é importante por alguns motivos, mas é divertido passarmos muito tempo pensando em quão incrível é o corpo humano que temos
esta incrível amplitude de movimento normalmente é uma força realmente incrível e divertida
exercício é que se você colocar a ponta do dedo na cadeira à sua frente, notará que há uma enorme amplitude de movimento que
você tem no ombro e no cotovelo, por exemplo, sem mover a ponta do dedo, você pode mover todas essas articulações
em qualquer lugar, mas o robô que você conhece, sua principal função é fazer um trabalho realmente útil e
talvez não precise necessariamente de todos esses graus de liberdade imediatamente, então reduzimos ao mínimo
de 28 graus fundamentais de liberdade e, claro, nossas mãos, além disso
os humanos também são bastante eficientes em algumas coisas e não tão eficientes em outras, por exemplo, podemos comer um pequeno
quantidade de comida para nos sustentar por várias horas, isso é ótimo, mas quando estamos sentados, não
ofensivo, mas somos um pouco ineficientes, estamos apenas queimando energia, então na plataforma do robô o que estamos
O que vamos fazer é minimizar o consumo de energia ocioso, reduzi-lo o máximo possível e dessa forma podemos apenas
aperte um botão e imediatamente o robô se transforma em algo que faz um trabalho útil
então vamos falar sobre essa última geração com mais detalhes, então na tela aqui você verá em
Laranja são atuadores que abordaremos daqui a pouco e em azul nosso sistema elétrico
então agora que temos nosso tipo de pesquisa baseada em humanos e temos nossa primeira plataforma de desenvolvimento, temos ambos
pesquisa e execução para basear este projeto novamente, estamos usando aquele projeto de veículo
base, então estamos levando isso desde o conceito até o design e análise e
em seguida, construa e valide ao longo do caminho, vamos otimizar coisas como custo e eficiência
porque essas são métricas críticas para levar este produto à escala, eventualmente, como vamos fazer isso bem?
vamos reduzir nossa contagem de peças e nosso consumo de energia de todos os elementos possíveis, faremos coisas como
reduzir a sensação e a fiação em nossas extremidades, você pode imaginar que muita massa em suas mãos e pés irá
será muito difícil e consumirá energia para se movimentar e vamos centralizar nossos
distribuição de energia e nossa computação para o centro físico da plataforma
então, no meio do nosso torso, na verdade, é o torso, temos nossa bateria com capacidade de 2,3 quilowatts-hora
o que é perfeito para cerca de um dia inteiro de trabalho, o que é realmente único nesta bateria
pacote é que ele tem todos os componentes eletrônicos da bateria integrados em um único PCB dentro do pacote, o que significa tudo
desde a detecção até a fusão, gerenciamento de carga e distribuição de energia, tudo em um só lugar
em um só lugar, também estamos aproveitando nossos produtos de veículos e nossos produtos de energia para rolar
todos esses recursos principais nesta bateria para que a fabricação seja simplificada, realmente eficiente e
métodos simples de resfriamento, gerenciamento de bateria e também segurança e, claro, podemos aproveitar o Tesla
infraestrutura existente e cadeia de suprimentos para que isso aconteça em nosso cérebro, é
não na cabeça, mas está bem próximo também em nosso torso, temos nosso Computador Central, então como vocês já sabem, Tesla
enviamos computadores autônomos completos em todos os veículos que produzimos, queremos aproveitar o hardware do piloto automático e
o software para a plataforma humanóide, mas porque é diferente em requisitos e formato, estamos
vamos mudar algumas coisas primeiro, então ainda vamos fazer tudo o que um cérebro humano faz
processamento de dados de visão, tomada de decisões em frações de segundo com base em múltiplas entradas sensoriais e também comunicações
portanto, para oferecer suporte às comunicações, está equipado com conectividade sem fio, bem como suporte de áudio
e também possui recursos de segurança em nível de hardware que são importantes para proteger o robô e as pessoas
ao redor do robô, então agora que temos nosso tipo de núcleo
precisaremos de alguns membros nesse cara e adoraríamos mostrar um pouco sobre nossos atuadores e nossos
mãos funcionais também, mas antes de fazermos isso, gostaria de apresentar Malcolm, que falará um pouco sobre
nossa base estrutural para o robô [Aplausos]
obrigado
Tesla tem a capacidade de finalizar sistemas altamente complexos, mas fica muito mais complexo do que um acidente que você pode ver
aqui, uma colisão simulada no modelo 3 sobreposta à colisão física real
é realmente incrível o quão preciso é só para lhe dar uma ideia da complexidade deste modelo
inclui cada nó, arruela Bolton, cada ponto de solda e tem 35 milhões de graus de liberdade, é incrível
e é verdade que se não tivéssemos modelos como este não seríamos capazes de fabricar os carros mais seguros do mundo
então podemos utilizar nossas capacidades e métodos do lado automotivo para influenciar um robô
bem, podemos fazer um modelo e como tivemos um software de travamento, usamos o mesmo software aqui, podemos fazê-lo cair
o objetivo disso é garantir que, se cair, idealmente não cai, mas é um dano superficial
não queremos, por exemplo, quebrar a caixa de câmbio nos braços, o que equivale a um ombro deslocado de um robô
difícil e caro de consertar, então queríamos tirar a poeira e continuar com um trabalho que foi dado
se pudéssemos também pegar o mesmo modelo e podermos acionar os atuadores usando a entrada de um modelo previamente resolvido
trazendo-o à vida, então isso está produzindo os movimentos para as tarefas que queremos que o robô execute.
as tarefas são pegar caixas, virar de cócoras, subir as escadas, seja qual for o conjunto de tarefas, podemos jogar para o
modelo, isso mostra apenas uma caminhada simples, podemos criar as tensões em todos os componentes que nos ajudam a
otimizar os componentes, estes não são robôs dançantes, são
na verdade, o comportamento modal dos primeiros cinco modos do robô e, normalmente, quando as pessoas criam robôs, elas se certificam
o primeiro modo está em torno dos primeiros dígitos até 10 Hertz
quem é que faz isso é para facilitar os controles de andar fica muito difícil andar se não dá para garantir
onde seu pé balança, não há problema em fazer um robô, queremos fazer milhares, talvez milhões
não temos o luxo de fabricá-los com fibra de carbono e titânio, queremos fazê-los em plástico, coisas não são
tão rígido que não podemos ter esses alvos altos, vou chamá-los de alvos idiotas
temos que fazê-los funcionar em metas mais baixas, então isso vai funcionar bem, se você pensar bem, desculpe
isso, mas somos apenas sacos de gelatina encharcada e ossos jogados dentro, não temos alta frequência se eu continuar
minha perna não vibro em 10 Hertz, nós operamos em baixa frequência, então
sabemos que o robô realmente pode, apenas torna os controles mais difíceis, então pegamos as informações desses dados modais e
a rigidez e alimentá-la no sistema de controle que lhe permite andar
apenas mudando um pouco o imposto olhando para o joelho, poderíamos nos inspirar
biologia e podemos ver quais são as vantagens mecânicas do joelho, na verdade ele representa bastante
semelhante ao link de quatro barras e isso é bastante não linear, o que não é surpreendente, porque se
você acha que quando dobra a perna para baixo, o torque no joelho é muito maior quando ele está dobrado do que quando está
direto, então você esperaria uma função não linear e, na verdade, a biologia é não linear
isso corresponde com bastante precisão, então essa é a representação do quatro por
obviamente, o link não é fisicamente um link de quatro barras, como eu disse, as características são semelhantes, mas aposto que isso é
não muito científico, vamos ser um pouco mais científicos, executamos todas as tarefas através deste gráfico, mas este
está mostrando piquetes de ambulantes agachados as tarefas que eu disse que fizemos no estresse e essa é a conversa, uma cena em
o joelho contra o joelho dobrado no eixo horizontal, isso mostra a necessidade do joelho fazer tudo isso
tarefas e, em seguida, fazer uma curva surfando no topo dos Picos e isso é o que é necessário para
faça o robô fazer essas tarefas
então, se olharmos para o link de quatro barras, na verdade é a curva verde e está dizendo que a não linearidade do
quatro por link é realmente linearizado a característica da força o que isso realmente diz é que baixou a força
é isso que faz com que o atuador tenha a força mais baixa possível, que é a mais eficiente, queremos queimar energia lentamente
qual é a curva azul, bem, a curva azul é, na verdade, se não tivéssemos um link de quatro barras, apenas teríamos um braço
saindo da minha perna aqui com um atuador, um link simples de duas barras
isso é o melhor que você poderia fazer com um simples link de duas barras e mostra que isso criaria muito mais força no
atuador que não seria eficiente, então como é isso na prática
bem, como você verá, mas está bem embalado no joelho, você verá um bom
transparente em um segundo você verá o link da barra completa lá está operando no atuador isso é determinado
força e os deslocamentos no atuador e agora passe para a concertina para
então eu gostaria de falar com você sobre o processo de design e o atuador
portfólio uh em nosso robô, então há muitas semelhanças entre um
carro e robô quando se trata de design de trem de força, a coisa mais importante que importa aqui é a massa e o custo da energia
estamos transferindo a maior parte de nossa experiência em design do carro para o robô
então, no caso específico, você vê um carro com duas unidades de propulsão e as unidades de propulsão
são usados para acelerar o carro de 0 a 60 milhas por hora ou dirigir um
cidades Drive site enquanto o robô que possui 28 atuadores e
não é óbvio quais são as tarefas no nível do atuador, então temos tarefas que
são de nível mais alto, como caminhar ou subir escadas ou carregar um objeto pesado que precisa ser traduzido em
especificações de junta em junta, portanto, usamos nosso modelo
que gera as trajetórias de velocidade de torque para nossas articulações que
posteriormente será alimentado em nosso modelo de otimização e executado
processo de otimização este é um dos cenários que o
o robô é capaz de fazer o que é girar e andar, então quando temos essa velocidade de torque
trajetória que estabelecemos sobre um mapa de eficiência de um atuador e podemos seguir
a trajetória para gerar o consumo de energia e o acúmulo de energia
energia para a tarefa versus tempo, o que nos permite definir o sistema
custo para o atuador específico e colocar um ponto simples na nuvem, então fazemos
isso para centenas de milhares de atuadores resolvendo em nosso cluster e a linha vermelha denota a frente de Pareto
que é a área preferida onde procuraremos o ideal, então o X denota
o projeto de atuador preferido que escolhemos para esta junta específica, então agora precisamos fazer isso para cada junta que
temos 28 juntas para otimizar e analisamos nossa nuvem analisamos nossa nuvem novamente para cada junta
especificação e o eixo vermelho desta vez denotam os designs de atuadores personalizados para cada
conjuntamente, o problema aqui é que temos muitos projetos de atuadores exclusivos e
mesmo se aproveitarmos a Simetria ainda há muitos para fazer algo em Massa
fabricável, precisamos ser capazes de reduzir a quantidade de projetos de atuadores exclusivos, portanto, executamos algo
chamado estudo de comunalidade, no qual analisamos nossa nuvem novamente, desta vez procurando
atuadores que atendem simultaneamente aos requisitos de desempenho da junta para mais de uma junta ao mesmo tempo, para que o
o portfólio resultante é de seis atuadores e eles mostram em um mapa colorido a figura do meio
hum e os atuadores também podem ser vistos neste slide, temos três rotativos e
três atuadores lineares, todos com grande força de saída ou torque por massa
o atuador rotativo em particular possui uma embreagem mecânica integrada no contato angular do lado de alta velocidade
rolamento de esferas e no lado de alta velocidade e no lado de baixa velocidade um rolo transversal
rolamento e o trem de engrenagens é uma engrenagem de onda de deformação e há três sensores integrados
aqui e a máquina de ímã permanente sob medida, o atuador linear
Sinto muito, o atuador linear tem rolos planetários e um parafuso planetário invertido
Como um trem de engrenagens que permite eficiência, compactação e durabilidade
então, para demonstrar a capacidade de força de nossos atuadores lineares,
criaram um experimento para testá-lo dentro de seus limites
e vou deixar você curtir o vídeo
então nosso atuador é capaz de levantar
um piano de cauda de concerto de nove pés em meio tom
e
este é um requisito, não é algo agradável de se ter porque nossos músculos podem fazer
o mesmo quando são acionados diretamente quando são acionados diretamente ou os músculos quadríceps podem fazer a mesma coisa
é que o joelho é um sistema de articulação que converte a força
em velocidade no efetor final de nossas Colinas com o propósito de dar ao
agilidade do corpo humano, então essa é uma das principais coisas que são incríveis no corpo humano e estou
concluindo minha parte neste momento e gostaria de dar as boas-vindas ao meu colega Mike, que falará com vocês sobre as mãos
design muito obrigado obrigado Constantinos
então acabamos de ver o quão poderoso um atuador humano e humanóide pode ser
os humanos também são incrivelmente hábeis, a mão humana tem a capacidade de se mover
a 300 graus por segundo, possui dezenas de milhares de sensores táteis
e tem a capacidade de agarrar e manipular quase todos os objetos em nossas vidas diárias
para o nosso design de mão robótica, fomos inspirados pela biologia, temos cinco dedos e um polegar oponível
nossos dedos são movidos por tendões metálicos que são flexíveis e fortes, temos a capacidade de completar movimentos amplos
o poder de abertura agarra ao mesmo tempo que é otimizado para agarrar com precisão objetos pequenos, finos e delicados
então por que uma mão robótica humana, bem, a principal razão é que nossas fábricas e o mundo ao nosso redor são
projetado para ser ergonômico, o que isso significa é que garante que os objetos em nossa fábrica sejam fáceis de agarrar
mas também garante que novos objetos que talvez nunca tenhamos visto antes possam ser agarrados pela mão humana e pelo nosso
mão robótica também, o inverso é bastante interessante porque diz que esses objetos são projetados para a nossa mão
em vez de ter que fazer alterações em nossa mão para acompanhar um novo objeto
algumas estatísticas básicas sobre nossa mão são que possui seis atuadores e 11 graus de liberdade, possui um controlador na mão que
movimenta os dedos e recebe feedback do sensor O feedback do sensor é realmente importante para
aprender um pouco mais sobre os objetos que estamos agarrando e também sobre a propriocepção e essa é a capacidade de reconhecermos onde
nossa mão está no espaço, um dos aspectos importantes da nossa mão é que ela é adaptativa, essa adaptabilidade
está envolvido essencialmente como mecanismos complexos que permitem que a mão se adapte aos objetos que está sendo agarrado
outra parte importante é que temos um acionamento digital não traseiro, esse mecanismo de embreagem nos permite segurar
e transportar objetos sem precisar ligar os motores manuais você acabou de ouvir como fizemos
começamos a projetar o bot Tesla Hardware agora vamos entregá-lo a Milão e nossa equipe de autonomia para trazer isso
robô ganhando vida, obrigado Mike
tudo bem, então todas aquelas coisas legais que mostramos anteriormente no vídeo foram postadas
possível em apenas alguns meses, graças à incrível notícia de que colocamos o piloto automático nos últimos anos
a maioria desses componentes foi transportada facilmente para o ambiente Bots, se você pensar bem, estamos apenas mudando
de um robô sobre rodas a um robô sobre pernas, então alguns desses componentes são bastante semelhantes e outros exigem
trabalho mais pesado, por exemplo, nossas redes neurais de visão computacional
relatado diretamente do piloto automático para a situação dos Bots é exatamente a mesma rede de ocupação
que falaremos mais detalhes posteriormente com a equipe do piloto automático que agora está executando o bot aqui em
neste vídeo a única coisa que realmente mudou foram os dados de treinamento que tivemos que lembrar
também estamos tentando encontrar maneiras de melhorar essas redes de ocupação usando o trabalho feito em seus campos Radiance para obter
renderização volumétrica realmente ótima dos ambientes Bots, por exemplo, aqui alguns
leitura de máquina com a qual o bot pode ter que interagir
outro problema interessante para se pensar é em ambientes internos, principalmente com aquela sensação de sinal de GPS, como você
prepare-se para navegar até seu destino, por exemplo, para encontrar a estação de carregamento mais próxima, então estamos treinando
mais redes neurais para identificar pontos-chave de recursos de alta frequência dentro do
A câmera dos bots transmite e os rastreia em quadros ao longo do tempo enquanto o bot navega até seu ambiente
e estamos usando esses pontos para obter uma estimativa melhor da pose e da trajetória dos Bots em seu ambiente, conforme
está caminhando, também fizemos alguns trabalhos no
lado da simulação e este é literalmente o simulador de piloto automático ao qual integramos a Locomoção do robô
código e este é um vídeo do código de controle de movimento em execução no simulador do simulador do operador mostrando o
a evolução dos robôs caminha ao longo do tempo e como vocês podem ver começamos bem devagar em abril e começamos a acelerar
à medida que desbloqueamos mais articulações e técnicas mais avançadas, como equilíbrio de braços, nos últimos meses
e então a Locomoção é especificamente um componente muito diferente à medida que passamos do carro para os Bots
ambiente e por isso acho que merece um pouco mais de profundidade e gostaria que meus colegas começassem a falar sobre isso
agora estrangeiro
olá a todos, sou Felix, sou engenheiro de robótica no projeto e vou falar sobre caminhada
parece fácil, certo, as pessoas fazem isso todos os dias, você nem precisa pensar nisso
mas existem alguns aspectos da caminhada que são desafiadores do ponto de vista da engenharia, por exemplo
autoconsciência física que significa ter uma boa representação de si mesmo qual é o comprimento de seus membros qual é
a massa dos seus membros qual é o tamanho dos seus pés tudo o que importa também ter um portão com eficiência energética você
posso imaginar que existem diferentes estilos de caminhada e todos eles são igualmente eficientes
o mais importante é manter o equilíbrio, não cair e, claro, também coordenar o movimento
de todos os seus membros juntos, então agora os humanos fazem tudo isso naturalmente, mas como engenheiros ou roboticistas temos
pensar sobre esses problemas e se vou mostrar como os abordamos em nosso planejamento e controle de locomoção
pilha, então começamos com o planejamento da locomoção e nossa representação do vínculo que
significa o modelo da dinâmica cinemática do robô e as propriedades de contato e usando esse modelo e o desejado
caminho para os Bots, nosso planejador de locomoção gera trajetórias de referência para todo o sistema
isso significa trajetórias viáveis em relação às suposições do nosso modelo
o planejador atualmente funciona em três etapas: começa o planejamento dos passos e termina com todo o sistema de fotos em movimento
e vamos nos aprofundar um pouco mais em como isso funciona, então neste vídeo vemos passos sendo planejados em vez de planejamento
Horizonte seguindo o caminho desejado e partimos deste e somamos então para
trajetórias que conectam esses passos usando o dedo do pé e rendem golpes assim como os humanos assim como os humanos fazem
e isso nos dá uma passada maior e menos flexão do joelho para alta eficiência do sistema
o último estágio é então encontrar uma trajetória do centro de massa que nos dê um movimento dinamicamente viável do
todo o sistema para manter o equilíbrio, pois todos sabemos que os planos são bons, mas
também temos que realizá-los na realidade, digamos que você saiba, veja como podemos fazer isso
[Aplausos] obrigado Felix, olá a todos, meu nome
é Anand e vou falar com você sobre controles, então vamos pegar o plano de movimento que Felix
acabei de falar e coloque no mundo real em um robô real vamos ver o que acontece
dá alguns passos e cai bem, isso é um pouco decepcionante
mas estamos faltando algumas peças-chave aqui que farão com que funcione
agora, como Felix mencionou, o planejador de movimento está usando uma versão idealizada de
em si e uma versão da realidade ao seu redor isso não é exatamente correto
também expressa sua intenção através de trajetórias e arranca ramos de
forças e torques que quer exercer sobre o Mundo para se locomover
a realidade é muito mais complexa do que qualquer modelo semelhante e o robô não é
simplificado, tem vibrações e modos de conformidade com o ruído do sensor e assim por diante
e assim por diante, o que isso faz com o mundo real quando você coloca o bot no mundo real
bem, as forças inesperadas causam dinâmicas não modeladas que essencialmente o planejador não conhece e que
causa desestabilização especialmente para um sistema que é dinamicamente estável como a locomoção bípede
então o que podemos fazer bem sobre isso, medimos a realidade, usamos sensores e nossa compreensão de
o mundo para fazer estimativas de estado e status para mim aqui você pode ver a atitude e a postura da pélvis que é
essencialmente o sistema vestibular em um ser humano, juntamente com a trajetória do centro de massa sendo rastreada quando o robô anda
no ambiente de escritório agora temos todas as peças que precisamos
para fechar o ciclo, então usamos nosso melhor modelo de bot, usamos a compreensão da realidade que
ganhamos através da estimativa do Estado e comparamos o que queremos versus o que esperamos a realidade que esperamos que
realidade está fazendo conosco para adicionar correções ao comportamento do
robô aqui o robô certamente não gosta de ser cutucado, mas não gosta
trabalho admirável de permanecer em pé, o ponto final aqui é um robô que
caminhadas não é suficiente, precisávamos usar suas mãos e braços para
seja útil, vamos falar sobre manipulação
[Aplausos]
oi a todos, meu nome é Eric, engenheiro de robótica da teslabot e quero conversar
sobre como fizemos o robô manipular coisas no mundo real, queríamos manipular objetos enquanto
parecendo o mais natural possível e também chegando lá rapidamente, então o que fizemos foi
dividimos esse processo em duas etapas: primeiro, gerar uma biblioteca de referências de movimento natural ou poderíamos
chame-os de demonstrações e então adaptamos essas referências de movimento on-line para a situação atual do mundo real
então digamos que temos uma demonstração humana de pegar um objeto, podemos obter uma captura de movimento dele
demonstração que é visualizada aqui como um monte de quadros-chave representando a localização das mãos
os cotovelos e o tronco podemos mapeá-los para o robô usando cinemática inversa e se coletarmos um
muitos deles agora temos uma biblioteca com a qual podemos trabalhar, mas uma única demonstração não é
generalizável para a variação no mundo real, por exemplo, isso só funcionaria para uma caixa em um ambiente muito particular.
localização, então o que também fizemos foi executar essas trajetórias de referência através de um
programa de otimização de trajetória que resolve onde a mão deve estar e como o robô deve se equilibrar
durante, uh, quando é necessário adaptar o movimento ao mundo real, por exemplo
se a caixa estiver neste local, nosso Otimizador criará este
trajetória em vez disso, o próximo Milan vai falar sobre uh
o que vem por aí para o Optimus uh Tesla e obrigado, obrigado Larry
certo, então espero que agora vocês tenham uma boa ideia do que temos feito nos últimos meses
hum, começamos a fazer algo que é utilizável, mas está longe de ser útil, ainda há um longo e emocionante caminho
à nossa frente, acho que a primeira coisa nas próximas semanas é conseguir o Optimus pelo menos
par com Bumble C, o outro protótipo de bug que você viu antes e provavelmente Beyond também vamos começar
focando no caso de uso real em uma de nossas fábricas e realmente vou tentar resolver isso e eu acabo
os elementos necessários para implantar este produto no mundo real que mencionei anteriormente
hum, você conhece a navegação interna elegante para gerenciamento ou até mesmo manutenção de todos
componentes necessários para ampliar este produto, mas não sei sobre você, mas depois
vendo o que mostramos esta noite, tenho certeza de que poderemos fazer isso nos próximos meses ou anos e faço
tornar este produto uma realidade e mudar toda a economia por isso gostaria de agradecer a toda a equipa Optimus pelo árduo
trabalho nos últimos meses, acho incrível que tudo isso tenha sido feito em apenas seis ou oito meses, obrigado
muito [Aplausos]
obrigado, oi a todos
oi, sou Ashok, lidero a equipe do piloto automático ao lado do Milan, Deus, está sendo tão difícil superar isso
Seção Optimus ele tentará de qualquer maneira
hum, cada Tesla que foi construído nos últimos anos, achamos que tem o
hardware para fazer o carro dirigir sozinho, estamos trabalhando no software para
adicionar níveis cada vez mais altos de autonomia desta vez, no ano passado, tivemos
cerca de 2.000 carros rodando nosso software beta FSD desde então, aumentamos significativamente
melhoramos o software em termos de robustez e capacidade e já o enviamos para 160.000 clientes até hoje
sim [Aplausos]
isso não veio de graça, veio do suor e do sangue da equipe de engenharia no último ano
por exemplo, treinamos 75.000 modelos de redes neurais no último ano, o que é
aproximadamente um modelo a cada oito minutos que você conhece saindo da equipe e então os avaliamos em nosso grande
clusters e então enviamos 281 desses modelos que realmente melhoram o desempenho do carro
e esse espaço de inovação está acontecendo em toda a pilha, no software de planejamento, no
infraestrutura as ferramentas até contratar tudo está progredindo para o próximo nível
o software beta FSG é perfeitamente capaz de dirigir o carro do qual deveria ser capaz de navegar
estacionamento em estacionamento manuseio CDC condução parada em semáforos e sinais de parada
negociando com objetos em cruzamentos fazendo curvas e assim por diante
tudo isso vem dos fluxos de câmeras que passam por nossas redes neurais que rodam no próprio carro.
não voltando para o servidor ou qualquer coisa, ele roda no carro e produz todas as saídas para formar o modelo mundial
ao redor do carro e o software de planejamento dirige o carro com base nisso
hoje abordaremos vários componentes que compõem o sistema, a rede de ocupação atua como base
camada de geometria do sistema, este é um vídeo neural multicâmera
rede que a partir das imagens prevê a plena ocupação física do mundo ao redor
o robô então qualquer coisa que esteja fisicamente presente árvores paredes edifícios carros paredes o que
você prevê se está especificamente presente, ele os prevê junto com seu movimento futuro
no topo deste nível básico de geometria, temos mais camadas semânticas para
navegar pelas estradas, precisamos das lentes, é claro, mas as estradas têm muitos
pistas diferentes e elas se conectam de todas as maneiras, então é realmente um problema muito difícil para um computador típico
técnicas de visão para prever o conjunto de planos e suas conectividades, então chegamos até a linguagem
Tecnologias e, em seguida, extraiu o estado da arte de outros domínios e não apenas da visão computacional para tornar esta tarefa
possível para veículos, precisamos de seu estado cinemático completo para controlá-los
tudo isso vem diretamente das redes neurais, fluxos de vídeo, fluxos de vídeo brutos que entram nas redes passam por muita coisa
de processamento e, em seguida, gera o estado cinemático completo que posiciona as velocidades, aceleração, solavanco, tudo isso
sai diretamente das redes com pós-processamento mínimo, o que é realmente fascinante para mim, porque como é
isto é até possível em que mundo vivemos que esta magia é possível que estas redes prevêem quarta
derivadas dessas posições quando as pessoas pensavam que não poderíamos nem detectar esses objetos
minha opinião é que não veio de graça, exigiu toneladas de dados, então tivemos uma etiquetagem automática um pouco sofisticada
sistemas que brilham através de dados brutos de sensores executam uma tonelada de computação off-line no
servidores, pode levar algumas horas para executar redes neurais caras que destilam as informações em rótulos que treinam nossos
redes neurais no carro, além disso, também usamos nosso sistema de simulação para sinteticamente
criar imagens e como é uma simulação temos trivialmente todos os rótulos
tudo isso passa por um pipeline de mecanismo de dados bem lubrificado, onde primeiro
treine um modelo de linha de base com alguns dados, envie-o para o carro, veja quais são as falhas e, quando você souber as falhas
exploramos a frota para os casos em que ela falha, fornecemos os rótulos corretos e adicionamos os dados ao conjunto de treinamento
esse processo corrige sistematicamente os problemas e fazemos isso para todas as tarefas executadas no carro
sim, e para treinar essas novas redes neurais massivas este ano expandimos nossa infraestrutura de treinamento em aproximadamente
40 a 50 por cento, o que nos deixa com cerca de 14.000 gpus hoje em vários
clusters de treinamento nos Estados Unidos, também trabalhamos em nosso compilador de IA, que
agora suporta novas operações necessárias para essas redes neurais e mapeá-las para o melhor de nosso subjacente
Recursos de hardware e nosso mecanismo de inferência hoje são capazes de distribuir a execução de
uma única rede neural através de dois sistemas independentes em navios, essencialmente dois computadores independentes interconectados
dentro do simples computador autônomo e para tornar isso possível temos que manter um controle rígido de ponta a ponta
latência deste novo sistema, então implantamos um código de agendamento mais avançado em toda a plataforma FSD
todas essas redes neurais funcionando juntas no carro produzem o espaço vetorial que é novamente o modelo do
mundo ao redor do robô ou do carro e então o sistema de planejamento opera em cima disso, criando trajetórias que
evite colisões ou progrida suavemente em direção ao destino usando uma combinação de otimização baseada em modelo
além de rede neural que ajuda a otimizá-lo para ser muito rápido
hoje estamos muito entusiasmados em apresentar o progresso em todas essas áreas, temos os líderes de engenharia à disposição para
entre e explique esses vários blocos e eles alimentam não apenas o carro, mas os mesmos componentes também funcionam no Optimus
robô que Milão mostrou anteriormente com aquele painel de boas-vindas para começar a falar sobre a seção de planejamento
olá a todos, sou parel joint, vamos usar este cenário de interseção para
mergulhe direto em como fazemos o planejamento e a tomada de decisões no piloto automático para que estejamos nos aproximando dessa interseção
de uma rua lateral e temos que ceder a todos os veículos que atravessam corretamente quando estamos prestes a entrar no
cruzamento O pedestre do outro lado do cruzamento decide atravessar a rua
sem faixa de pedestres agora precisamos ceder a essa cedência de pedestres aos veículos da direita e
entender também a relação entre o pedestre e o veículo do outro lado do cruzamento
muitas dessas dependências intra-objeto que precisamos resolver rapidamente
e os humanos são muito bons nisso, olhamos para uma cena, entendemos todas as interações possíveis e avaliamos ao máximo
promissores e geralmente acabam escolhendo um razoável
então vamos dar uma olhada em algumas dessas interações que o sistema de piloto automático avaliou que poderíamos ter feito antes disso
pedestre com um lançamento muito agressivo em perfil lateral agora obviamente estamos sendo um idiota com o
Pedestre e nós assustaríamos O Pedestre e seu lindo animal de estimação poderíamos ter avançado lentamente
para uma lacuna entre o pedestre ou o veículo da direita novamente estamos sendo um idiota com o veículo
vindo da direita, mas você não deve rejeitar totalmente esta interação, caso esta seja apenas uma interação segura disponível
por último a interação acabamos escolhendo ficar lento inicialmente achar o razoável
Gap e então finalize a manobra depois que todos os agentes passarem
agora a avaliação de todas essas interações não é trivial, especialmente quando você se preocupa com modelagem
as derivadas de ordem superior para outros agentes, por exemplo, qual é o longitudinal
solavanco exigido pelo veículo vindo da direita quando você avança na frente dele, confiando apenas em verificações de colisão com
previsões modulares só levarão você até certo ponto porque você perderá muitas interações válidas
isso basicamente se resume a resolver um problema de planejamento de trajetória conjunta multiagente sobre as trajetórias do ego e
todos os outros agentes agora, o quanto você otimiza, haverá um limite para a rapidez com que você pode
execute este problema de otimização, ele estará próximo da ordem de 10 milissegundos, mesmo depois de muitas aproximações incrementais
agora, para uma típica esquerda lotada e imprevisível, digamos que você tenha mais de 20 objetos cada
objeto com vários modos futuros diferentes, o número de combinações de interação relevantes explodirá
nós, o planejador, precisamos tomar uma decisão a cada 50 milissegundos, então como podemos resolver isso em tempo real
contamos com uma estrutura que chamamos de pesquisa de interação, que é basicamente uma pesquisa paralelizada sobre um monte de
trajetórias de manobra, o espaço de estados aqui corresponde ao estado cinemático do ego, o estado cinemático
estado de outros agentes, o futuro nominal, múltiplas previsões multimodais e todas as entidades estáticas na cena
o espaço de ação é onde as coisas ficam interessantes, usamos um conjunto de trajetória de manobra
candidatos para ramificar uma série de decisões interacionais e também metas incrementais por um longo período
Manobra de horizonte Vamos percorrer esta pesquisa muito rapidamente para ter uma noção de como funciona
começamos com um conjunto de medidas de visão, nomeadamente objetos em movimento de ocupação de faixas, que são representados como
extrações esparsas, bem como recursos latentes, usamos isso para criar um conjunto de objetivos
candidatos Faixas novamente da rede de faixas ou regiões não estruturadas que correspondem a
uma máscara de probabilidade derivada de demonstrações humanas, uma vez que tivermos um monte desses ouro
candidatos, criamos trajetórias iniciais usando uma combinação de abordagens clássicas de otimização, bem como nossos
O planejador de rede foi treinado novamente com dados do feed do cliente, assim que obtivermos vários deles gratuitamente
trajetórias, nós as usamos para começar a ramificar nas interações, encontramos a interação mais crítica
no nosso caso, esta seria a interação em relação ao Pedestre, quer nos afirmemos diante dele ou nos rendamos a ele
obviamente, a opção à esquerda é uma opção de penalidade alta e provavelmente não será priorizada, então ramificamos mais adiante
a opção da direita e é aí que trazemos interações cada vez mais complexas construindo essa otimização
problema de forma incremental com mais e mais restrições e que a pesquisa continua fluindo ramificando-se em mais interações ramificadas
em mais objetivos agora, muitos truques aqui estão na avaliação de cada um deste nó
da pesquisa dentro de cada nó inicialmente começamos criando
trajetórias usando abordagens clássicas de otimização onde as restrições como descrevi seriam adicionadas de forma incremental
e isso levaria cerca de um a cinco milissegundos por ação agora, embora isso seja bastante bom
número quando você deseja avaliar mais de 100 interações, isso não é escalonável
então acabamos construindo redes consultáveis leves que você pode executar no loop do planejador
essas redes são treinadas em demonstrações humanas da frota, bem como em solucionadores off-line com limites de tempo flexíveis
com isso, conseguimos reduzir o tempo de execução do resumo para cerca de 200 microssegundos por ação
agora fazer isso sozinho não é suficiente porque você ainda tem essa pesquisa massiva que precisa fazer
através e você precisa podar eficientemente o espaço de pesquisa, então você precisa fazer uma pontuação em cada
dessas trajetórias, poucas delas são razoavelmente padronizadas, você faz um monte de verificações de colisão, você faz um monte de análises de conforto, qual é o empurrão e
realmente necessário para uma determinada manobra, os dados da frota do cliente desempenham aqui novamente um papel importante
executamos dois conjuntos de redes variáveis novamente leves, ambas realmente aumentando uma à outra, uma delas treinada a partir de
intervenções da frota beta do FST, que dá uma pontuação sobre a probabilidade de uma determinada manobra resultar em
intervenções durante os próximos segundos e o segundo que é puramente em demonstrações humanas, dados conduzidos por humanos, fornecendo
uma pontuação sobre quão próxima está a ação selecionada de uma trajetória conduzida por humanos
a pontuação nos ajuda a podar o espaço de pesquisa, continuar ramificando ainda mais nas interações e focar a computação em
os resultados mais promissores a parte legal disso
arquitetura é que ela nos permite criar uma mistura legal entre abordagens baseadas em dados onde você
não precisa depender de muitos custos de engenharia manual, mas também fundamentá-los na realidade com verificações baseadas na física
agora muito do que descrevi foi em relação aos agentes que pudemos observar na cena, mas o mesmo
estrutura se estende a objetos atrás de oclusões, usamos o feed de vídeo de oito câmeras
para gerar a ocupação 3D do mundo, a máscara azul aqui corresponde ao
região de visibilidade que chamamos, basicamente fica bloqueada no primeiro
oclusão que você vê na cena, consumimos essa máscara de visibilidade para gerar o que chamamos de objetos fantasmas que você
podemos ver no canto superior esquerdo agora se você modelar as regiões de spawn e as transições de estado deste fantasma
objetos corretamente se você ajustar sua resposta de controle como um
função dessa probabilidade de existência, você pode extrair alguns comportamentos humanos realmente legais
agora vou passar para preencher para descrever mais como geramos essas Redes de Ocupação
Olá pessoal, meu nome é Phil. Vou compartilhar os detalhes da rede de ocupação que construímos no ano passado
esta rede é a nossa solução para modelar o trabalho físico em 3D em torno dos nossos carros e atualmente não é mostrada em nossos
visualização voltada para o cliente e o que veremos aqui é a saída da rede rodoviária de nossa ferramenta interna de desenvolvimento
a rede de ocupação capta fluxos de vídeo de todas as nossas 80 câmeras, pois a entrada produz um único volume volumétrico unificado
ocupação no espaço vetorial diretamente para cada local 3D ao redor do nosso carro.
prevê a probabilidade daquele local estar muito ocupado por ter contatos de vídeo é
capaz de prever obstáculos que são obstruídos instantaneamente
para cada local, também produz um conjunto de semânticas, como meio-fio, carro, pedestre
e poucos detritos conforme código de cores aqui
o fluxo de ocupação também é previsto para movimento, uma vez que o modelo é uma rede generalizada
ele não diz explicitamente aos objetos estáticos e dinâmicos que é capaz de produzir e
modele os movimentos aleatórios, como o treinador de desvio aqui
esta rede está atualmente em execução em todos os Teslas com computadores FSD e é
incrivelmente eficiente é executado a cada 10 milissegundos com nosso acelerador neural
então como isso funciona, vamos dar uma olhada na arquitetura primeiro, retificamos as imagens de cada câmera com
a calibração da câmera e as imagens mostradas aqui foram fornecidas à rede, na verdade não é
a típica imagem RGB de 8 bits, como você pode ver nas primeiras imagens no topo, estamos
fornecendo a imagem da conta de foto bruta de 12 bits para a rede, uma vez que ela tem quatro
bits a mais de informação, possui faixa dinâmica 16 vezes melhor, bem como redução
latência, já que não temos mais o ISP errado na Adobe, usamos um conjunto de registros e voltamos com
FPS como espinha dorsal para extrair recursos espaciais de imagens. Em seguida, construímos um conjunto de posições 3D
consulta junto com os recursos do espaço IMG à medida que chaves e valores se ajustam a um módulo de atenção
a saída do módulo de atenção são recursos espaciais de alta dimensão
esses recursos especiais são alinhados temporariamente usando a odometria do veículo
para derivar o movimento por último, essas características temporais espaciais vão
através de um conjunto de convolução D para produzir a ocupação final e a saída do fluxo de ocupação
eles são formados como boxer cinza de tamanho fixo, o que pode não ser preciso o suficiente para planejar o controle
para obter uma resolução mais alta, também produzimos mapas de recursos por voxel que alimentarão o MLP com dados espaciais 3D.
Consultas pontuais para obter posição e semântica em qualquer local arbitrário
depois de conhecer melhor o modelo vamos dar uma olhada em outro exemplo aqui temos um ônibus articular estacionado à direita
fileira lateral destacada como um boxeador em forma de L aqui conforme nos aproximamos do ônibus começa a
mova o azul, a frente do carrinho fica azul primeiro, indicando que o modelo prevê que o ônibus frontal tem um zero para baixo
fluxo de ocupação e o ônibus s continua se movendo o ônibus inteiro fica azul
e você também pode ver que a rede prevê a curvatura precisa do barramento
bem, este é um problema muito complicado para a rede tradicional de detecção de objetos, pois você precisa ver se vou
use um cubóide ou talvez dois para ajustar a curvatura, mas para ocupação Rede
já que tudo o que nos importa é a ocupação no espaço visível e seremos capazes de modelar a curvatura com precisão
além do grau de voxel, a rede de ocupação também produz uma superfície dirigível
a superfície dirigível possui geometria e semântica 3D, são muito úteis para controle, especialmente na cura
e estradas sinuosas, a superfície e o cinza do voxel não são previstos independentemente, em vez disso, o
a grade de voxel na verdade se alinha implicitamente com a superfície, aqui estamos em uma missão de herói onde você
podemos ver a geometria 3D da superfície sendo bem prevista
o planejador pode usar essas informações para decidir que talvez precisemos desacelerar mais para o Hillcrest e como você também pode
veja o grau do voxel alinhado com a superfície de forma consistente
além da fonte Box e da superfície, também estamos muito entusiasmados com o recente avanço no campo de leituras neurais ou
Nerf que estamos procurando incorporar alguns dos recursos de cores claras em
treinamento de rede de ocupação, bem como usar nossa saída de rede como estado de entrada para Nerf
na verdade, Ashok está muito animado com isso, este tem sido seu projeto pessoal de fim de semana há algum tempo
estou nervoso porque acho que a Academia está construindo muitos desses
Modelos básicos para linguagem usando toneladas de grandes conjuntos de dados para linguagem, mas acho que para nervos de visão
forneceremos os modelos básicos para visão computacional porque eles são baseados em geometria e geometria
nos dá uma ótima maneira de supervisionar essas redes e congela o requisito de definir uma ontologia e o
a supervisão é essencialmente gratuita porque você só precisa renderizar essas imagens de maneira diferenciada, então acho que no futuro, uh, isso
ocupação Ideia de rede onde você sabe que as imagens entram e então a rede produz um consistente
representação volumétrica da cena que pode então ser renderizada diferencialmente em qualquer imagem que foi observada I I
pessoalmente, acho que é o futuro da visão computacional, e você sabe que estamos fazendo um trabalho inicial nisso, agora, mas eu
pense no futuro tanto na Tesla quanto na Academia veremos que estes
combinação de previsão One-Shot de ocupação volumétrica, uh será isso
minha aposta pessoal sexual, então aqui está um exemplo de resultado inicial de um
Reconstrução 3D a partir de nossos dados gratuitos, em vez de focar na obtenção de uma reprojeção RGB perfeita no espaço de imagem, nosso
O objetivo principal aqui é representar com precisão o espaço 3D dos avisos para dirigir e queremos fazer isso para todos
nossos dados gratuitos em todo o mundo em todas as condições climáticas e de iluminação e, obviamente, este é um desafio muito
problema e procuramos vocês para ajudar finalmente a rede de ocupação está treinada
com um grande conjunto de dados de nível automático sem nenhum humano no circuito e com isso passarei para Tim conversar
sobre o que é necessário para treinar esta rede, obrigado Phil
[Aplausos] tudo bem, ei pessoal, vamos conversar sobre algum treinamento
infraestrutura, então vimos alguns vídeos, você sabe, quatro ou cinco, uh, eu acho e me importo
mais e nos preocupamos mais com muito mais clipes sobre isso, então estamos olhando
as redes de ocupação apenas de Phil preenchem vídeos, são necessários 1,4 bilhão
frames para treinar aquela rede o que você acabou de ver e se você tiver cem mil gpus, uh, levaria uma hora
mas se você tiver uma GPU, levaria cem mil horas, então isso não é
um período de tempo humano que você pode esperar até que seu trabalho de treinamento seja executado corretamente, queremos enviar mais rápido do que isso para que
significa que você precisará ir em paralelo, então você precisa de mais computação para isso, isso significa que você precisará de um
supercomputador, é por isso que construímos internamente três supercomputadores compreendendo
de 14.000 gpus onde usamos 10.000 gpus para treinamento e cerca de quatro mil
gpus para rotulagem automática, todos esses vídeos são armazenados em 30 petabytes de um vídeo gerenciado distribuído
cache, você não deve pensar em nossos conjuntos de dados como fixos, digamos, enquanto você pensa em seu
imagenet ou algo que você conhece com um milhão de quadros, você deve pensar nisso como algo muito fluido, então temos um
meio milhão desses vídeos entrando e saindo desse cluster todos os dias
e rastreamos 400.000 desses tipos de instanciações de vídeo python a cada segundo
então são muitas chamadas que precisaremos capturar para governar as políticas de retenção deste
cache de vídeo distribuído, então subjacente a tudo isso está uma enorme quantidade de infra, que construímos e gerenciamos
internamente, então você não pode simplesmente comprar, você sabe, 40.000
gpus e depois 30 petabytes de Flash mvme e basta juntar tudo e vamos treinar uh, na verdade é preciso muito
trabalho e vou falar um pouco sobre isso, o que você normalmente quer fazer é pegar o acelerador, então
que poderia ser a GPU ou Dojo do qual falaremos mais tarde e porque é o mais caro
componente que é onde você deseja colocar seu gargalo e isso significa que cada parte do seu sistema é
vai precisar superar esse acelerador e é realmente complicado que
significa que seu armazenamento precisará ter o tamanho e a largura de banda para entregar todos os dados aos nós
esses nós precisam ter a quantidade certa de recursos de CPU e memória para alimentar seu aprendizado de máquina
estruturar esta estrutura de aprendizado de máquina precisa entregá-la à sua GPU e então você pode começar a treinar, mas então você
precisa fazer isso em centenas ou milhares de GPU de maneira confiável em
logstap e de uma forma que também seja rápida então você também vai precisar de uma interconexão extremamente complicada falaremos mais
sobre dojo em um segundo, então primeiro quero levá-lo a algum
otimizações que fizemos em nosso cluster, então estamos recebendo muitos vídeos e
o vídeo é muito diferente, digamos, de treinamento em imagens ou texto, que considero muito bem estabelecido, o vídeo é bastante
literalmente uma dimensão mais complicada, hum, e é por isso que precisávamos ir até o fim
terminar da camada de armazenamento até o acelerador e otimizar cada parte disso porque treinamos na contagem de fótons
vídeos que vêm diretamente de nossa frota, treinamos diretamente sobre eles, não os postamos e processamos de forma alguma
a maneira como isso é feito é que buscamos exatamente os quadros que selecionamos para o nosso lote e os carregamos, incluindo o
frames dos quais eles dependem, então esses são seus iframes ou quadros-chave, nós os empacotamos e os movemos para compartilhados
memória, mova-os para uma barra dupla da GPU e, em seguida, use o decodificador de hardware que é acelerado apenas para
na verdade, decodificamos o vídeo, então fazemos isso nativamente na GPU e tudo isso em uma extensão python pytorch muito boa
isso desbloqueou mais de 30 aumentos de velocidade de treinamento para as redes de ocupação e liberou basicamente um todo
CPU para fazer qualquer outra coisa, você não pode simplesmente treinar com apenas
vídeos, é claro que você precisa de algum tipo de verdade básica, uh e uh, isso também é um problema interessante
O objetivo de armazenar sua verdade básica é que você deseja ter certeza de chegar à verdade básica necessária no
quantidade mínima de operações do sistema de arquivos e carga no tamanho mínimo necessário para otimizar a agregação
taxa de transferência entre clusters porque você deve ver um cluster de computação como um grande dispositivo que foi corrigido internamente
restrições e limites, então para isso lançamos um formato que
é nativo para nós e é chamado de pequeno, usamos isso para nossa verdade básica, nosso cache de recursos e quaisquer saídas de inferência
tantos tensores que estão lá e apenas o desenho aqui, digamos que estes são a sua, uh, é a sua mesa que você
deseja armazenar, então é assim que ficaria se você implementasse no disco, então o que você faz é pegar qualquer coisa que você
deseja indexar, por exemplo, carimbos de data e hora de vídeo, você coloca todos eles no cabeçalho para que em seu cabeçalho inicial
leia, você sabe exatamente onde ir no disco, então se você tiver algum tensor, você vai tentar transpor o
dimensões para colocar uma dimensão diferente por último como a dimensão contígua e depois também tentar diferentes tipos de
compactação, então você verifica qual foi a mais ideal e depois armazena essa, isso é na verdade um grande passo se você fizer isso
recurso de cache de saída ininteligível da rede de aprendizado de máquina gira em torno do
dimensões um pouco, você pode obter até 20 aumentos na eficiência do armazenamento, então, quando você armazena isso, nós também
ordenou as colunas por tamanho para que todas as suas colunas pequenas e valores pequenos fiquem juntos para que quando você procurar por um
valor único, você provavelmente se sobreporá a uma leitura de mais valores que você usará mais tarde, para que não precise fazer
outra operação do sistema de arquivos para que eu pudesse continuar e continuei
Abordamos dois projetos que temos internamente, mas na verdade isso faz parte de um enorme esforço contínuo para otimizar o
calcular o que temos internamente, acumulando e agregando por meio de todas essas otimizações. Agora treinamos nossos
redes de ocupação duas vezes mais rápidas só porque são duas vezes mais eficientes e agora, se adicionarmos mais computação e pronto
paralelamente, não podemos treinar isso em horas em vez de dias e com isso gostaria de passar para
o maior usuário de computação John
oi pessoal, meu nome é John Emmons, lidero a equipe do piloto automático Vision, vou abordar dois tópicos com vocês
hoje o primeiro é como prevemos as faixas e o segundo é como prevemos o comportamento futuro de outros agentes na estrada
nos primeiros dias do piloto automático, modelamos o problema de detecção de faixa como uma tarefa de segmentação instantânea do espaço de imagem
nossa rede era super simples, embora na verdade só fosse capaz de imprimir pistas de alguns tipos diferentes de
geometrias especificamente, segmentaria a Eagle Lane, poderia segmentar adjacente
pistas e então tinha um invólucro especial para bifurcações e mescla essa modelagem simplista do problema
funcionou para estradas altamente estruturadas, como rodovias, mas hoje estamos tentando construir um sistema
que é capaz de manobras muito mais complexas, especificamente, queremos fazer curvas à esquerda e à direita nos cruzamentos
onde a topologia rodoviária pode ser um pouco mais complexa e diversificada quando tentamos aplicar esta modelagem simplista do
problema aqui, ele simplesmente desmorona, dando um passo para trás por um momento, o que
estamos tentando fazer aqui é prever o conjunto de instâncias fracas em sua conectividade e o que queremos fazer é ter um
rede neural que basicamente prevê este gráfico onde os nós são os segmentos da pista e as arestas codificam o
conectividades entre essas pistas, então o que temos é nossa detecção de pista
rede neural é composta por três componentes no primeiro componente temos um conjunto de
camadas convolucionais, camadas de atenção e outras camadas de rede neural que codificam os fluxos de vídeo de nossos oito
câmeras no veículo e produzem uma rica representação visual
em seguida, aprimoramos essa representação digital com um roteiro aproximado. Dados de mapa de nível de estrada que codificamos com
um conjunto de camadas adicionais de rede neural que chamamos de módulo de orientação de faixa, este mapa não é um mapa HD, mas é
fornece muitas dicas úteis sobre a topologia das faixas dentro dos cruzamentos, a faixa conta em várias estradas e um conjunto de outros atributos que
ajude-nos os dois primeiros componentes aqui produziram um
tensor denso que codifica o mundo, mas o que realmente queremos fazer é converter esse tensor denso em um
conjunto inteligente de pistas em suas conectividades, abordamos esse problema como uma imagem
tarefa de legendagem onde a entrada é este tensor denso e o texto de saída é previsto em uma linguagem especial que
desenvolvemos na Tesla para codificar Lanes em suas conectividades nesta linguagem de Lanes as palavras e
tokens são as posições da pista no espaço 3D em A ordem dos tokens introduziu modificadores nos tokens
codificar as relações conectivas entre essas pistas modelando a tarefa como uma linguagem
problema, podemos capitalizar em arquiteturas e técnicas autorregressivas recentes da comunidade linguística para lidar com os múltiplos
modalidade do problema, não estamos apenas resolvendo o problema de visão computacional no piloto automático, também estamos aplicando o que há de mais moderno e
modelagem de linguagem e aprendizado de máquina de forma mais geral. Agora vou me aprofundar um pouco mais detalhadamente neste componente de linguagem
o que representei na tela aqui é a imagem de satélite que representa a área local ao redor do
veículo, o conjunto de arestas de nariz é o que chamamos de gráfico de pista e é, em última análise, o que queremos que saia deste neural
rede, começamos do zero, vamos querer fazer nosso primeiro
previsão aqui neste ponto verde, esta posição dos pontos verdes é codificada como
um índice em uma grade de curso que discretiza o mundo 3D agora não prevemos esse índice diretamente
porque seria muito caro do ponto de vista computacional fazer isso, há muitos pontos de grade e a previsão de um valor categórico
distribuição sobre isso tem implicações tanto no tempo de treinamento quanto no tempo de teste, então, em vez disso, o que fazemos é desfazer o
mundo grosseiramente, primeiro prevemos um mapa de calor sobre os locais possíveis e depois fixamos o local mais provável
com isso, refinamos a previsão e obtemos o ponto preciso
agora sabemos onde está a posição deste token, não sabemos seu tipo neste caso, embora seja o início de um novo
Lane, então o abordamos como um token inicial e, por ser um token de estrela, não há
atributos adicionais em nossa linguagem, então pegamos as previsões dessa primeira passagem direta e as codificamos
usando uma incorporação adicional aprendida que produz um conjunto de tensores que combinamos
que é na verdade a primeira palavra em nossa linguagem de pistas, adicionamos isso à primeira posição que você conhece em nossa frase aqui
então continuamos esse processo imprimindo o próximo ponto da pista de maneira semelhante
agora este ponto da pista não é o início de uma nova pista, é na verdade uma continuação da pista anterior
então é um tipo de token de continuação agora não é suficiente apenas saber disso
esta pista está conectada ao plano anteriormente protegido, queremos codificar sua geometria precisa, o que fazemos por
regredindo um conjunto de coeficientes spline, então pegamos esta pista e a codificamos
novamente e adicioná-lo como a próxima palavra na frase, continuamos prevendo essas pistas de continuação até chegarmos ao
No final da grade de previsão, passamos para um segmento de pista diferente para que você possa ver aquele ponto ciano ali agora
não está topologicamente conectado a esse ponto rosa, na verdade está se ramificando daquele azul, desculpe, verde
aponte para lá, então ele tem um tipo de fork e tokens de Fork
na verdade, apontam para tokens anteriores dos quais o fork se origina, para que você
pode ver aqui que o preditor de ponto de bifurcação é na verdade o índice zero, então ele está se referindo aos tokens que já foram previstos, como você faria em
linguagem, continuamos esse processo repetidamente até enumerarmos todos os
tokens no gráfico Ling e então a rede prevê o token de final de frase
sim, só quero observar que a razão pela qual fazemos isso não é apenas porque queremos construir algo complicado, é
quase parece uma máquina completa aqui com redes neurais é que tentamos abordagens simples para
por exemplo, tentando apenas segmentar as faixas ao longo da estrada ou algo assim, mas o problema é quando
há incerteza, digamos que você não consegue ver a estrada claramente e pode haver duas ou três faixas e você não consegue dizer
uma abordagem simples baseada em segmentação apenas desenharia que ambos seriam uma situação de pista 2,5 e o
o algoritmo de pós-processamento falharia hilariantemente quando as previsões fossem tais, sim, os problemas não terminam aí, quero dizer
você precisa prever essas condições conectivas, como essas faixas conectivas dentro de interseções, o que simplesmente não é possível com a abordagem que
Ashok mencionou que é por isso que tivemos que atualizar para esse tipo de sobreposição, como se essa segmentação fosse descontrolada, mas mesmo se você tentar muito
você sabe, colocá-los em camadas separadas, é um problema muito difícil, qual linguagem oferece uma estrutura muito boa para a obtenção moderna de
amostra de uma posterior, em vez de tentar fazer tudo isso no pós-processamento
mas isso na verdade não para apenas no piloto automático, certo John, isso pode ser usado para o Optimus novamente, você sabe, acho que não seriam
chamado Lanes, mas você pode imaginar que sabe neste estágio aqui que você pode ter alguns caminhos que você sabe que codificam o possível
lugares onde as pessoas poderiam andar, sim, é basicamente se você estiver em uma fábrica ou em um ambiente doméstico que você conhece
você pode simplesmente perguntar ao robô, ok, deixe-me falar com a cozinha ou encaminhe para algum local na fábrica
e então prevemos um conjunto de caminhos que você saberia passar pelos corredores, pegar o robô e dizer ok, isso
é como você chega à cozinha, isso realmente nos dá uma boa estrutura para modelar esses diferentes caminhos que simplificam o problema de navegação ou o
planejador downstream, tudo bem, então, em última análise, o que obtemos
esta rede de detecção de pista é um conjunto de pistas em suas conectividades que vem diretamente da rede que existe
nenhuma etapa adicional aqui para simplificar essas previsões densas em indispersas
esta é apenas uma saída direta não filtrada da rede
ok, então falei um pouco sobre Lanes. Vou abordar brevemente como modelamos e prevemos os caminhos futuros em
outra semântica em objetos, então vou examinar rapidamente dois exemplos do vídeo no
bem aqui temos um carro que está realmente ultrapassando o sinal vermelho e virando na nossa frente o que fazemos para lidar com
situações como esta é que prevemos um conjunto de trajetórias futuras do Horizonte de curto prazo em todos os objetos que podemos usar
estes para antecipar a situação perigosa aqui e aplicar tudo o que você sabe que a ação de frenagem e direção é necessária para evitar uma colisão
no vídeo à direita tem dois veículos na nossa frente o da faixa da esquerda está estacionado aparentemente é
sendo carregado descarregado não sei porque o motorista resolveu estacionar ali mas o importante é que nossa rede neural previu que estava parado
que é a cor vermelha, o veículo na outra pista, como você percebe, também está parado, mas aquele é
obviamente, apenas esperando que a luz vermelha fique verde, então mesmo que ambos os objetos estejam estacionários e tenham velocidade zero, é a semântica que é
é muito importante aqui para não ficarmos presos atrás daquele carro mal estacionado
prever todos esses atributos do agente apresenta alguns problemas práticos ao tentar construir um sistema em tempo real
precisamos maximizar a taxa de quadros de nossa pilha de seções de objetos para que o piloto automático possa reagir rapidamente às mudanças no ambiente
cada milissegundo realmente importa aqui para minimizar a latência de inferência, nossa rede neural é dividida em duas fases
na primeira fase identificamos locais no espaço 3D onde existem agentes
no segundo estágio, retiramos tensores nesses locais 3D e acrescentamos dados adicionais que estão no
veículo e então você sabe que faz o resto do processamento, esta etapa de especificação permite que o
rede neural para focar a computação nas áreas mais importantes, o que nos proporciona desempenho superior por uma fração do custo de latência
então, juntando tudo, a pilha Vision do piloto automático prevê mais do que apenas a geometria e a cinemática de
o mundo, também prevê um rico conjunto de semânticas que permite uma condução segura e humana
Não vou entregar as coisas para Street, vamos nos contar como executamos todas essas redes neurais legais em nosso computador FSD, obrigado
[Aplausos]
oi a todos, hoje sou SRI, vou dar uma ideia do que é necessário para operar essas redes FSC no
carro e como otimizamos a latência de inferência. Hoje vou me concentrar apenas no
Rede FSG Lanes da qual John acabou de falar
então, quando você iniciou esta trilha, queríamos saber se podemos executar esta rede de pistas FSC nativamente no mecanismo de viagem
que é nosso acelerador de rede neural interno que construímos no computador FSD
quando construímos este hardware, mantivemo-lo simples e garantimos que ele pode funcionar
coisa ridiculamente rápida, produtos pontuais densos, mas essa arquitetura é automática
regressivo e iterativo, onde ele analisa vários blocos de atenção no Inner Loop
produzindo pontos esparsos diretamente em cada etapa, então o desafio aqui era como
podemos fazer esta análise Previsão de ponto e cálculo esparso em um mecanismo de produto escalar denso, vamos ver como fizemos isso
na viagem para que a rede preveja o mapa de calor de
localizações espaciais mais prováveis do ponto agora fazemos um Arc Max e um
operação cardíaca que fornece uma codificação rígida do índice da localização espacial
agora precisamos selecionar a incorporação associada a este índice a partir de uma tabela de incorporação que é aprendida durante
treinando para fazer isso em viagem, na verdade construímos uma tabela de pesquisa em SRAM e projetamos
as dimensões desta incorporação de modo que poderíamos conseguir tudo isso apenas com a multiplicação de matrizes
não apenas que também queríamos armazenar essa incorporação em um cache de token para
que não recalculamos isso para cada iteração, em vez disso, reutilizá-lo para previsão futura de pontos novamente, extraímos alguns
truques aqui onde fizemos todas essas operações apenas no mecanismo de produto escalar, é realmente legal que nossa equipe
encontrei maneiras criativas de mapear todas essas operações no mecanismo de viagem de maneiras
que nem imaginamos quando este Hardware foi projetado, mas não é só isso que temos que
fizemos para fazer isso funcionar, na verdade implementamos uma série de operações e recursos para fazer esse modelo
compilável para melhorar a precisão da ingestão, bem como para otimizar o desempenho
todas essas coisas nos ajudaram a executar o modelo de 75 milhões de parâmetros em pouco menos de 10
milissegundo de latência consumindo apenas 8 watts de energia
mas esta não é a única arquitetura rodando no carro, existem tantas outras arquiteturas, módulos e redes
precisamos correr no carro para dar uma noção de escala, existem cerca de um bilhão de parâmetros de todas as redes
combinados, produzindo cerca de 1.000 sinais de redes neurais, então precisamos ter certeza
nós os otimizamos em conjunto e de forma que maximizamos o cálculo
taxa de transferência de utilização e minimizar a latência, então construímos um compilador apenas para neural
redes que compartilham a estrutura com compiladores tradicionais, como você pode ver, é preciso um grande esforço
gráfico de redes neurais com 150 mil nós e 375 mil conexões leva essa coisa
os particiona em subgrafos independentes e obriga cada um desses
subgráficos nativamente para os dispositivos de inferência, então temos uma rede neural
Linker que compartilha a estrutura do Linker tradicional onde realizamos essa otimização de tempo de link
lá resolvemos um problema de otimização offline com memória de computação e memória
restrições de largura de banda para que venha com uma programação otimizada que seja executada no carro
no tempo de execução, projetamos um sistema de agendamento híbrido que basicamente faz
agendamento heterogêneo em um SOC e agendamento distribuído em ambos os socs para executar essas redes em um modelo
forma paralela para obter 100 quedas de utilização de computação, precisamos otimizar em todos os
camadas de software desde o ajuste da arquitetura de rede, o compilador
o caminho para implementar um link RDMA de baixa latência e alta largura de banda em ambos os srcs e, de fato, ir ainda mais fundo
entender e otimizar o cache de dados coerentes e não coerentes Caminhos do acelerador no soc isso é muito
de otimização em todos os níveis para garantir a maior taxa de quadros e cada milissegundo conta
aqui e este é este é apenas este é o
visualização das redes neurais que funcionam no carro, este é o nosso cérebro digital, essencialmente, como você pode ver
essas operações nada mais são do que apenas a convolução de multiplicação de matrizes, para citar algumas operações reais executadas no carro
para treinar ou treinar essa rede com um bilhão de parâmetros você precisa de muitos dados rotulados então aegon vai falar
sobre como podemos conseguir isso com o pipeline de rotulagem automática
obrigado, obrigado, Sherry
Olá a todos, sou Jurgen Zhang e estou liderando uma visão geométrica no piloto automático
então sim, vamos falar sobre rotulagem automática
então temos vários tipos de frameworks de rotulagem para suportar vários tipos de redes, mas hoje eu gostaria de
concentre-se na incrível rede Lanes aqui para treinar e generalizar com sucesso
esta rede para todos os lugares onde pensamos que fizemos dezenas de milhões de viagens de
provavelmente um cruzamento de um milhão ou até mais
então como fazer isso para que seja certamente possível obter fonte suficiente
quantidade de viagens porque já temos, como Tim explicou anteriormente, já temos cerca de 500.000 viagens por dia à vista
hum, no entanto, converter todos esses dados em um formulário de treinamento é um problema técnico muito desafiador
para resolver este desafio, tentamos várias formas de etiquetagem manual e automática, de
da primeira coluna para a segunda, da segunda para a terceira, cada avanço nos proporcionou quase 100x de melhoria em
rendimento, mas ainda assim ganhamos uma etiquetadora automática ainda melhor que pode fornecer
fornecer aos provedores diversidade e escalabilidade de boa qualidade
para atender a todos esses requisitos, apesar do enorme esforço de engenharia necessário aqui, desenvolvemos um
nova máquina de etiquetagem de pedidos alimentada por reconstrução multitrib, para que possa substituir 5 milhões de horas de
etiquetagem manual com apenas 12 horas no cluster para etiquetar 10.000 viagens
então, como resolvemos, há três grandes passos, o primeiro passo é uma trajetória de alta precisão e recuperação de estrutura por
odometria inercial visual multicâmera, então aqui todos os recursos, incluindo a superfície do solo, são inferidos a partir de vídeos
por redes neurais então rastreadas e reconstruídas no espaço vetorial
então a taxa de deriva típica dessa trajetória no carro é de 1,3 centímetro
por metro e 0,45 mili radianos por metro, o que é bastante decente, considerando seu cálculo compacto
requisito do que o serviço de recuperação e os detalhes brutos também são usados como um forte
orientação para a etapa posterior de verificação manual, isso também está habilitado em todos os FSD
veículo para obtermos trajetórias e estruturas pré-processadas junto com os dados da viagem
a segunda etapa é a reconstrução multi-2, que é a peça grande e central desta máquina
então o vídeo mostra como a viagem mostrada anteriormente é reconstruída e alinhada
com outras viagens basicamente outras viagens de pessoas diferentes e não do mesmo veículo, então isso é feito por vários
etapas da Internet, como alinhamento do curso, combinação de pares, otimização da junta e posterior refinamento da superfície
no final o analista humano chega e finaliza o rótulo
então cada etapa feliz já está totalmente paralelizada no cluster para que o
todo o processo geralmente leva apenas algumas horas
a última etapa é rotular automaticamente as novas viagens para que
aqui usamos o mesmo mecanismo de alinhamento multi-viagem, mas apenas entre a reconstrução pré-construída e cada novo
viagem, então é muito mais simples do que reconstruir completamente todos os clipes
é por isso que leva apenas 30 minutos por viagem para outra etiqueta em vez de manual
várias horas de rotulagem manual e esta também é a chave da escalabilidade
desta máquina, esta máquina pode ser facilmente dimensionada, desde que
têm dados de computação e viagem disponíveis, então cerca de 50 árvores foram encomendadas recentemente
rotulados desta cena e alguns deles são mostrados aqui, então 53 de veículos diferentes
então é assim que capturamos e transformamos as fatias do espaço-tempo do mundo em
a supervisão da rede, sim, uma coisa que gosto de observar é que acabei de falar sobre como nós Auto
rotular nossas pistas, mas temos trabalhadores automotivos para quase todas as tarefas que realizamos, incluindo nosso planejador e muitos de
estes são totalmente automáticos como nenhum ser humano envolvido, por exemplo, para objetos ou outras cinemáticas, as formas deles
No futuro, tudo vem da etiquetagem automática e o mesmo se aplica à ocupação e nós realmente acabamos de
construí uma máquina em torno disso, sim, então se você puder voltar um slide, não mais um
diz paralelizado no cluster, então parece bastante simples, mas
realmente não foi, talvez seja divertido compartilhar como algo assim acontece, então há um tempo atrás não tínhamos nenhum
rotulagem automática e então alguém faz um script que começa a funcionar, começa a funcionar melhor até chegarmos a um
volume que é bastante alto e claramente precisamos de uma solução e então havia outros dois engenheiros
nossa equipe, que era como você, sabe que isso é interessante, você sabe, o que precisávamos fazer era construir um gráfico completo de
essencialmente funções python que precisamos executar uma após a outra, primeiro você puxa o clipe, depois faz uma limpeza e depois faz
alguma inferência de rede e depois outra inferência de rede até que você finalmente consiga isso, mas você precisa fazer isso como um
em grande escala, então eu digo a eles que provavelmente precisamos filmar, você sabe, 100.000 clipes por dia ou cerca de 100.000 itens
isso parece bom, hum, então os engenheiros dizem bem, podemos fazer com que você conheça um pouco de postgres e um pouco
de graxa de cotovelo, podemos fazer isso enquanto estamos um pouco mais tarde e estamos fazendo 20
milhões dessas funções todos os dias, novamente, obtemos cerca de meio milhão
clipes e neles executamos uma tonelada de funções, cada uma delas em streaming e isso é meio que por trás
infra final que também é necessária não apenas para executar o treinamento, mas também para a rotulagem automática, sim, é realmente como uma fábrica que
produz rótulos e linhas de produção semelhantes geram estoque de qualidade, como todos os mesmos Conceitos aplicados a isso
etiqueta Fábrica uh que se aplica a você conhece a fábrica de nossos carros, isso mesmo
ok, obrigado, então sim, então concluindo
nesta seção, eu gostaria de compartilhar mais alguns exemplos desafiadores e interessantes para Network, com certeza e até
para os humanos, provavelmente, uh, então, do início, há exemplos como caso de falta de mentiras ou noite de neblina ou rotatória
e oclusões por oclusões pesadas por carros estacionados e até noite chuvosa com suas gotas de chuva nas lentes das câmeras uh
estes são desafiadores, mas uma vez que suas cenas originais são totalmente reconstruídas por outros clipes, todos eles podem ser
Rotulado automaticamente para que nossos cartões possam funcionar ainda melhor nesses cenários desafiadores
então agora deixe-me passar o microfone para David para saber mais sobre como Sim está criando o novo mundo em cima desses rótulos, obrigado
você
obrigado mais uma vez, meu nome é David e vou falar sobre simulação, então a simulação desempenha um papel fundamental
fornecendo dados que são difíceis de obter e/ou rotular, no entanto, as cenas 3D são notoriamente lentas
para produzir, tomemos por exemplo a cena simulada passando atrás de mim um
complexo cruzamento da Market Street, em São Francisco, levaria duas semanas para
artistas para completar e para nós isso é dolorosamente lento, mas vou falar sobre como usar
rótulos de verdade automatizados de Jaegan, juntamente com algumas ferramentas totalmente novas que nos permitem gerar isso de forma processual
cena e muitos gostam em apenas cinco minutos, isso é incrível, mil vezes mais rápido do que antes
então vamos mergulhar em nossa cena assim que for criada, começamos canalizando o solo automatizado
rótulos verdadeiros em nossas ferramentas de criação de mundo simulado dentro do software Houdini, começando com o limite da estrada
rótulos, podemos gerar uma malha rodoviária sólida e retopologizá-la com os rótulos do gráfico da pista, isso ajuda a informar informações importantes sobre estradas.
detalhes como inclinação da encruzilhada e mistura detalhada de materiais
em seguida, podemos usar os dados da linha e varrer a geometria em sua superfície e projetá-la na estrada criando a pintura Lane
decalques a seguir usando bordas medianas que podemos gerar
Geometria da ilha e preenchê-la com folhagem aleatória, isso muda drasticamente a visibilidade da cena
agora o mundo exterior pode ser gerado através de uma série de heurísticas aleatórias e geradores de edifícios modulares
criar obstruções visuais enquanto objetos colocados aleatoriamente, como hidrantes, podem mudar a cor das curvas enquanto
as árvores podem deixar cair folhas abaixo delas, obscurecendo linhas ou bordas
em seguida, podemos trazer dados de mapas para informar posições de coisas como semáforos ou sinais de parada que podemos rastrear
é normal coletar informações importantes como número de faixas e até obter nomes de ruas precisos nas
em seguida, usando o gráfico de pista, podemos determinar a conectividade da pista e gerar direcional
Marcações rodoviárias na estrada e elas acompanham os sinais de trânsito e, finalmente, com o próprio gráfico de pista,
pode determinar a adjacência da pista e outras métricas úteis para gerar permutações de tráfego aleatórias Simulador interno
e, novamente, tudo isso é automático, sem artistas envolvidos e acontece em minutos e agora isso nos prepara para fazer
algumas coisas bem legais, já que tudo é baseado em dados e heurísticas, podemos começar a confundir
parâmetros para criar variações visuais da verdade básica única, pode ser tão sutil quanto a colocação de objetos e aleatória
troca de materiais para mudanças mais drásticas, como biomas inteiramente novos ou locais de ambiente como Urbano
Suburbano ou rural, isso nos permite criar infinitas permutações direcionadas para
verdades básicas para as quais precisamos de mais verdades básicas e tudo isso acontece com um clique de um
botão e podemos até dar um passo adiante, alterando nossa verdade básica
em si diz que John quer que sua rede preste mais atenção às marcações direcionais da estrada
para detectar melhor uma próxima faixa cativa de conversão à esquerda, podemos começar a alterar processualmente nosso gráfico de faixa dentro
o simulador para ajudar as pessoas a criar fluxos inteiramente novos através desta interseção para ajudar
Concentre a atenção da Rede nas marcações rodoviárias para criar previsões mais precisas e este é um excelente exemplo de como isso
ferramentas nos permitem criar novos dados que nunca poderiam ser coletados no mundo real
e o verdadeiro poder desta ferramenta está em sua arquitetura e como podemos executar todas as tarefas em paralelo infinitamente
dimensione para que você veja a ferramenta Criador de blocos em ação, convertendo a verdade básica
rótulos em suas contrapartes, em seguida, podemos usar nossa ferramenta extrator de blocos
dividir esses dados em blocos geohash com cerca de 150 metros quadrados de tamanho
em seguida, salvamos esses dados em arquivos de geometria e instância separados, o que nos fornece uma fonte limpa de dados que é fácil de
carregar e nos permite tornar o mecanismo agnóstico para o futuro
então, usando uma ferramenta de carregamento de blocos, podemos invocar qualquer número desses blocos de cache usando um ID geohash que estamos fazendo atualmente
sobre esses blocos de cinco por cinco ou três por três, geralmente centrados em pontos de acesso da Frota ou em gráficos de terreno interessantes
locais no carregador de blocos também converte esses conjuntos de blocos em ativos U para consumo
pelo Unreal Engine e fornece um produto de projeto finalizado a partir do que você viu no primeiro slide
e isso realmente nos define em termos de tamanho e escala, como você pode ver no mapa atrás de nós
podemos facilmente gerar a maior parte das ruas da cidade de São Francisco e isso não levou anos ou mesmo meses de trabalho, mas
em vez de duas semanas por uma pessoa, podemos continuar a gerenciar e fazer crescer todos
esses dados usando nossa rede PDG dentro das ferramentas, isso nos permite lançar
calcule e regenere todos esses conjuntos de blocos durante a noite, isso garante que todos os ambientes sejam de
qualidade e recursos consistentes, o que é super importante para o treinamento, uma vez que novas ontologias e sinais são constantemente
liberado e agora para fechar o círculo porque nós
gerou todos esses conjuntos de peças a partir de dados reais que contêm todas as complexidades estranhas do mundo real
e podemos combinar isso com a variedade processual visual e de tráfego para criar dados direcionados ilimitados para o
rede para aprender e isso conclui a seção Sim. Vou passar para Kate falar sobre como podemos
use todos esses dados para melhorar o piloto automático, obrigado
obrigado David, oi a todos, meu nome é Kate Park e estou aqui para falar sobre o mecanismo de dados, que é o processo pelo qual nós
melhorar nossas redes neurais por meio de dados, vamos mostrar como resolvemos intervenções de forma determinística
por meio de dados e orientar você na vida desse clipe específico neste cenário
o piloto automático está se aproximando de uma curva e prevê incorretamente que o veículo atravessando está parado para o trânsito e, portanto,
um veículo que iríamos desacelerar, pois na realidade não há ninguém no carro, está apenas estacionado de maneira estranha, nós construímos isso
ferramentas para identificar as previsões erradas, corrigir o rótulo e categorizar isso
clipe em um conjunto de avaliação, este clipe em particular é um dos 126
que diagnosticamos como carros estacionados desafiadores nas curvas por causa disso
infra, podemos fazer a curadoria deste conjunto de avaliação sem nenhum recurso de engenharia personalizado
para este caso de desafio específico para realmente resolver esse caso de desafio
requer a mineração de milhares de exemplos como esse e é algo que Tesla pode fazer trivialmente, simplesmente usamos nossos dados
obter dados de solicitação de infra e usar as ferramentas mostradas anteriormente para corrigir o
rótulos, ao visar cirurgicamente as previsões erradas do modelo atual, estamos apenas adicionando o que há de mais valioso
exemplos para o nosso conjunto de treinamento, consertamos cirurgicamente 13.900 clipes e uh
porque esses foram exemplos em que o modelo atual tem dificuldades, nem precisamos mudar a arquitetura do modelo
A maneira simples de atualizar com esses novos dados valiosos é suficiente para resolver o caso desafiador, então você vê que não prevemos mais
aquele veículo de travessia parado conforme mostrado em laranja, mas estacionado conforme mostrado em vermelho
na academia, muitas vezes vemos que as pessoas mantêm os dados constantes, mas na Tesla é
muito pelo contrário, vemos repetidamente que os dados são uma das melhores, se não a mais determinística, alavanca
para resolver essas intervenções acabamos de mostrar o mecanismo de dados Loop
para um caso de desafio, nomeadamente estes carros estacionados nas curvas, mas há muitos casos de desafio, mesmo para um sinal de
Movimento de veículos, aplicamos esse mecanismo de dados Loop a cada caso desafiador que diagnosticamos, sejam ônibus
estradas sinuosas paradas Estacionamentos de veículos e não adicionamos dados apenas quando
faça isso repetidamente para aperfeiçoar a semântica. Na verdade, este ano atualizamos nosso sinal de movimento de veículos cinco vezes
e com cada atualização de peso treinada com base nos novos dados, aumentamos cada vez mais a precisão do movimento do veículo
esta estrutura de mecanismo de dados se aplica a todos os nossos sinais, sejam eles 3D
vídeo com várias câmeras, independentemente de os dados serem rotulados por humanos. Rotulado automaticamente ou simulado, seja um modelo off-line ou um
modelo de modelo online e a Tesla é capaz de fazer isso em escala por causa da frota
Aproveite a infra que nossa equipe de motores construiu e os recursos de rotulagem que alimentam nossas Redes
para treinar todos esses dados, precisamos de uma grande quantidade de computação, então vou passar para Pete e Ganesh falarem sobre
a plataforma de supercomputação dojo obrigado [Aplausos]
obrigado, obrigado Katia
obrigado a todos, obrigado por aguentarem, estamos quase lá, meu nome é Pete Bannon, eu administro a alfândega
equipes de silício e baixa tensão na Tesla e meu nome é Ganesh Venkat, eu administro o
programa doji
[Aplausos] obrigado Muitas vezes me perguntam por que um carro é
empresa construindo um supercomputador para treinamento e esta questão fundamentalmente
entende mal a natureza de Tesla em sua essência Tesla é uma tecnologia hardcore
empresa em toda a empresa as pessoas estão trabalhando duro em ciência e engenharia
para avançar a compreensão fundamental e os métodos que temos disponíveis
para construir carros, robôs da Energy Solutions e qualquer outra coisa, então podemos fazer para
melhorar a condição humana em todo o mundo, é algo super emocionante de se fazer parte e é um privilégio administrar um negócio muito
um pequeno pedaço disso no grupo de semicondutores hoje à noite vamos falar um pouco sobre dojo e dar uma ideia
atualizar sobre o que conseguimos fazer no ano passado, mas antes de fazermos isso, gostaria de dar um pouco de
histórico do projeto inicial que iniciamos há alguns anos, quando começamos, o objetivo era fornecer um
Melhoria substancial na latência de treinamento para nossa equipe de piloto automático, algumas das
as maiores redes neurais que treinaram hoje funcionam por mais de um mês, o que inibe sua capacidade de rapidamente
explore alternativas e avalie-as para saber que uma aceleração de 30X seria
seria muito bom se pudéssemos fornecê-lo a um custo competitivo e de forma competitiva em termos de energia
para fazer isso queríamos construir um chip com muita aritmética
unidades que poderíamos utilizar com uma eficiência muito alta e passamos muito tempo estudando se poderíamos fazer isso
usando DRM, várias ideias de embalagens, todas falharam e, no final, mesmo que
pareceu um ato antinatural, decidimos rejeitar o dram como meio de armazenamento primário para este sistema e, em vez disso, focar
na SRAM embutida no chip SRAM fornece, infelizmente, um modesto
quantidade de capacidade, mas largura de banda extremamente alta e latência muito baixa e isso nos permite alcançar alta utilização
com as unidades aritméticas essas escolhas
dessa escolha em particular levou a um monte de outras opções, por exemplo, se você quiser ter memória virtual, você precisa
tabelas de páginas ocupam muito espaço, não tínhamos espaço, então não há memória virtual, também não temos interrupções no
acelerador é uma peça de hardware simples que é apresentada a um compilador
no compilador é responsável por agendar tudo o que acontece de forma terminística para que não haja necessidade ou
mesmo desejo por interrupções no sistema, também optamos por seguir o modelo
paralelismo como metodologia de treinamento, o que não é a situação típica mais
a maioria das máquinas hoje usa paralelismo de dados que consome capacidade de memória adicional que obviamente não temos
então todas essas escolhas nos levaram a construir uma máquina que é radicalmente
diferente do que está disponível hoje, também tínhamos vários outros objetivos, um dos mais importantes era não
limites, então queríamos construir uma estrutura de computação que pudesse ser dimensionada de maneira ilimitada na maior parte, quero dizer, obviamente
há limites físicos de vez em quando, mas você sabe muito bem se o seu modelo foi
grande demais para o computador você só tinha que comprar um computador maior, era isso que estávamos procurando hoje no pacote
máquinas são empacotadas, há uma proporção bastante fixa de, por exemplo, CPUs GPU e
e capacidade de dram e capacidade de rede e queríamos realmente desagregar tudo isso para que, à medida que os modelos evoluíssem, pudéssemos
variar as proporções desses vários elementos e tornar o sistema mais flexível para atender às necessidades do
equipe do piloto automático, sim, e é tão verdade que a filosofia No Limits foi nossa estrela-guia
durante todo o caminho, todas as nossas escolhas foram centradas em torno disso e para o
ponto que não queríamos que a infraestrutura tradicional de data center limitasse nosso
capacidade de executar esses programas com velocidade, é por isso que
é por isso que sinto muito por isso, é por isso que integramos
verticalmente nosso data center, todo o data center, fazendo uma vertical
integração do data center poderíamos extrair novos níveis de eficiência poderíamos otimizar a energia
entrega Resfriamento e também gerenciamento de sistema em
toda a pilha do data center, em vez de fazer caixa por caixa e integrar isso
essas caixas em data centers e para fazer isso também queríamos
integrar antecipadamente para descobrir os limites de escala para o nosso
cargas de trabalho de software, então integramos o ambiente Dojo em nosso software de piloto automático muito cedo e aprendemos muito
lições e hoje, uh, Bill Chang irá falar sobre nossa atualização de hardware, bem como alguns
dos desafios que enfrentamos ao longo do caminho e Rajiv kurian lhe dará uma
vislumbre de nossa tecnologia de compilador, bem como alguns de nossos resultados interessantes
aí vai você
obrigado Pete, obrigado Ganesh, vou começar esta noite com um alto nível
visão do nosso sistema que ajudará a preparar o terreno para os desafios e problemas que enfrentamos
resolvendo e também como o software irá aproveitar isso para desempenho
agora nossa visão para o Dojo é construir um único e unificado acelerar um grande
um software veria um plano de computação contínuo com endereçável globalmente
memória muito rápida e todos conectados com alta largura de banda uniforme e
baixa latência agora para perceber isso, precisamos usar
densidade para alcançar desempenho agora aproveitamos a tecnologia para obter essa densidade a fim de quebrar os níveis de
hierarquia desde o chip até os sistemas de expansão
agora a tecnologia do silício tem usado isso tem feito isso há décadas os chips têm
seguiu a lei de Moore para densidade e integração para obter escala de desempenho
agora um passo fundamental para perceber que a Visão era nossa peça de treinamento, não apenas podemos integrar 25 dados em
largura de banda extremamente alta, mas podemos dimensioná-la para qualquer número de blocos adicionais apenas conectando-os
agora, no ano passado, apresentamos nosso primeiro bloco de treinamento funcional e naquela época já tínhamos cargas de trabalho em execução
e desde então a equipe aqui tem trabalhado duro e diligentemente para implantar
isso em grande escala, agora fizemos um progresso incrível e tivemos muitos marcos ao longo do caminho e, claro,
é claro que tivemos muitos desafios inesperados, mas é aqui que falhamos rapidamente
a filosofia nos permitiu ultrapassar nossos limites
agora, aumentar a densidade em prol do desempenho apresenta novos desafios, uma área é o fornecimento de energia
aqui precisamos fornecer energia para nossa matriz de computação e isso impacta diretamente
nosso desempenho de computação Top Line, mas precisamos fazer isso em uma densidade sem precedentes, precisamos ser capazes de corresponder ao nosso
passo da matriz com uma densidade de potência de quase um amp por milímetro quadrado
e devido à extrema integração, este precisa ser um sistema vertical de vários níveis
solução de energia e porque há um empilhamento de material heterogêneo complexo
temos que gerenciar cuidadosamente a transição material, especialmente CTE
agora, por que o coeficiente de expansão térmica importa neste caso CTE é uma propriedade fundamental do material
e se não for gerenciado com cuidado, o Stack Up literalmente se despedaçará
então começamos esse esforço trabalhando com fornecedores para desenvolver este
solução de energia, mas percebemos que na verdade precisávamos desenvolver essa solução internamente
agora, para equilibrar cronograma e risco, criamos iterações rápidas para dar suporte
nosso sistema traz à tona e desenvolvimento de software e também para encontrar o design ideal e
acumulação que atenderia às nossas metas finais de produção e, no final, conseguimos reduzir o CTE em mais de 50%
e atingir nosso desempenho em 3x em relação à nossa versão inicial
agora nem é preciso dizer que encontrar esse material ideal empilhando enquanto maximiza
o desempenho em densidade é extremamente difícil
agora tivemos desafios inesperados ao longo do caminho, aqui está um exemplo em que pressionamos o
limites de integração que levaram a falhas de componentes
isso começou quando aumentamos para cargas de trabalho maiores e mais longas e depois intermediamos intermitentemente uma única
site em um bloco falharia agora, eles começaram como falhas recuperáveis, mas à medida que pressionamos um pouco
poder cada vez maior, estes se tornariam falhas permanentes
agora, para entender esse fracasso, você precisa entender por que e como construímos nosso
módulos de potência resolvendo densidade em todos os níveis é o que é
é a pedra angular para realmente alcançar o desempenho do nosso sistema agora porque nosso plano X Y é usado para
comunicação de alta largura de banda, todo o resto deve ser empilhado verticalmente
isso significa que todos os outros componentes, exceto nossa matriz, devem ser integrados em nossos módulos de potência
agora isso inclui nosso relógio e nossas fontes de alimentação e também nossos controladores de sistema
agora, neste caso, as falhas foram devido à perda de saída de clock de nossos osciladores
e após uma extensa depuração, descobrimos que a causa raiz era devido a vibrações no módulo de
efeitos piezoelétricos nossos capacitores próximos
agora, os bonés cantantes não são um fenômeno novo e, na verdade, são muito comuns em design de energia
mas normalmente os chips de clock são colocados em uma área muito silenciosa da placa e muitas vezes
não são afetados por circuitos de energia, mas porque precisávamos atingir esse nível de integração, esses osciladores precisam
ser colocados muito próximos agora devido à nossa frequência de comutação e
então a ressonância vibratória criada causou vibração do plano automático em nossos mems
oscilador que causou sua rachadura agora a solução para este problema é um
abordagem multifacetada, podemos reduzir a vibração usando tampas de terminal flexíveis
podemos atualizar nossa parte mems com um fator Q menor para a direção do plano externo
e também podemos atualizar nossa frequência de comutação para afastar ainda mais a ressonância desses
bandas sensíveis agora são adicionadas à densidade uh em
no nível do sistema, temos feito muitos progressos no nível da infraestrutura
sabíamos que precisávamos reexaminar todos os aspectos da infraestrutura do data center
para suportar nossa densidade de potência e resfriamento sem precedentes
trouxemos um CDU totalmente personalizado para suportar o resfriamento denso do dojo
requisitos e a parte surpreendente é que somos capazes de fazer isso por uma fração do custo, em vez de comprar na prateleira e
modificá-lo e como nosso gabinete Dojo integra energia e resfriamento suficientes para combinar com um
linha inteira de racks de TI padrão, precisamos projetar cuidadosamente nosso gabinete e
infraestrutura juntos e já passamos por diversas iterações deste gabinete para otimizar
isso e no início deste ano, começamos a testar a carga de nossos sistemas de energia e resfriamento
infra-estrutura e conseguimos aumentá-la para mais de dois megawatts antes de desligarmos nossa subestação e recebermos uma ligação do
cidade sim, agora no ano passado introduzimos apenas um
alguns componentes do nosso sistema, o dado D1 personalizado e o bloco de treinamento, mas
provocamos o pod de saída como nosso objetivo final. Analisaremos as partes restantes do nosso sistema que são necessárias para construir
fora deste pod de saída agora a bandeja do sistema é uma parte fundamental do
concretizar nossa visão de um único acelerador, isso nos permite
conecte as peças não apenas dentro do gabinete, mas entre os gabinetes
podemos conectar esses blocos com espaçamento muito pequeno em todo o acelerador
e é assim que conseguimos nossa comunicação uniforme, este é um barramento laminado que permite
integrar suporte mecânico e térmico de altíssima potência em uma integração extremamente densa
tem 75 milímetros de altura e suporta seis peças de 135 quilos
isso equivale a três a quatro racks de alto desempenho totalmente carregados
em seguida, precisamos alimentar os blocos de treinamento com dados, é aqui que desenvolvemos o processador de interface dojo
ele fornece ao nosso sistema um dram de alta largura de banda para preparar nossos dados de treinamento
e fornece largura de banda de memória total para nossos blocos de treinamento usando TTP, nosso personalizado
protocolo que podemos usar para nos comunicarmos em todo o nosso acelerador, ele também possui Ethernet de alta velocidade que
nos ajuda a estender esse protocolo personalizado sobre Ethernet padrão e fornecemos suporte nativo de hardware
para isso com pouca ou nenhuma sobrecarga de software e, por último, podemos conectar-nos a ele
através de uma interface PCIe Gen 4 padrão
agora emparelhamos 20 desses cartões por bandeja e isso nos dá 640 gigabytes de alta
dram de largura de banda e isso fornece nossa camada de memória desagregada para nossos blocos de treinamento
essas placas são um caminho de ingestão de alta largura de banda através de PCIe e Ethernet
eles também fornecem um caminho de conectividade z de alta taxa que permite atalhos em nosso grande Dojo
acelerador agora nós realmente integramos o host
diretamente abaixo da bandeja do sistema, esses hosts fornecem nosso processamento de ingestão e se conectam à nossa interface
processadores através de pcie, esses hosts podem fornecer vídeo de hardware
suporte de decodificador para treinamento baseado em vídeo e nossos aplicativos de usuário chegam a esses
hosts que nós podemos fornecer a eles o ambiente Linux x86 padrão
agora podemos colocar dois desses conjuntos em um gabinete e combiná-lo com fontes de alimentação redundantes que direcionam
conversão de energia CA trifásica de 480 volts em energia CC de 52 volts
Agora, ao focarmos na densidade em todos os níveis, podemos concretizar a visão de um único
acelerador agora começando com os nós uniformes em nosso dado D1 personalizado
podemos conectá-los em nosso bloco de treinamento totalmente integrado e, finalmente, conectá-los perfeitamente
através dos limites do gabinete para formar nosso acelerador Dojo
e todos juntos podemos abrigar dois aceleradores completos em nossa cápsula de saída por um
combinado um exaflop de ml computa agora todos podem juntos esta quantidade de
tecnologia e integração só foram feitas algumas vezes no
história da computação a seguir veremos como o software pode aproveitar isso para acelerar seu desempenho
[Aplausos]
obrigado Bill, meu nome é Rajiv e vou falar alguns números para que nossa pilha de software comece com pi
extensão de tocha que demonstra nosso compromisso com um modelo pytorch padrão pronto para uso
falaremos mais sobre nosso compilador jit e o pipeline de ingestão que alimenta o hardware com dados
abstratamente desempenhos tempos máximos tempos de utilização ocupação do acelerador
vimos como o hardware fornece desempenho máximo. O trabalho do compilador é extrair a utilização do
hardware enquanto o código está em execução nele e é função do pipeline de ingestão garantir que os dados possam ser restritos
com taxa de transferência alta o suficiente para que o hardware nunca morra de fome, então vamos falar sobre por que a comunicação
modelos vinculados são difíceis de escalar, mas antes disso, vamos ver por que modelos semelhantes ao resnet 50 são mais fáceis de escalar.
comece com um único acelerador, execute as passagens para frente e para trás seguidas pelo otimizador
do que para aumentar isso, você executa várias cópias em vários aceleradores e enquanto o gradiente é produzido por
a passagem para trás precisa ser reduzida e isso introduz alguma comunicação, isso pode ser feito Pipeline com o
passagem para trás esta configuração escala bastante bem quase
linearmente para modelos com ativações muito maiores
nos deparamos com um problema assim que queremos executar a passagem direta do tamanho do lote que cabe em um único
O acelerador geralmente é menor que a superfície do lote Norm, portanto, para contornar isso, os pesquisadores normalmente executam essa configuração em vários
aceleradores no modo norma de lote de sincronização, isso introduz comunicação vinculada à latência para o caminho crítico de
o passe para frente e já temos um gargalo de comunicação e embora haja maneiras de contornar
isso eles geralmente envolvem um trabalho manual tedioso, mais adequado para um compilador e, em última análise, não há rodeios
em torno do fato de que, se o seu estado não couber em um único acelerador, você poderá ficar preso à comunicação
e mesmo com esforços significativos de nossos engenheiros de ml, vemos que esses modelos não são dimensionados linearmente
o sistema dojo foi construído para fazer tais modelos funcionarem com alta utilização e alta
a integração de densidade foi construída não apenas para acelerar as partes limitadas de computação de um modelo, mas também a latência
porções vinculadas como uma norma de lote ou porções vinculadas à largura de banda como um gradiente
todos reduzidos ou um parâmetro todos reunidos uma fatia da malha do dojo pode ser esculpida
Para executar qualquer modelo, a única coisa que os usuários precisam fazer é tornar a fatia grande o suficiente para caber em um
superfície do banheiro para seu modelo específico, depois disso a divisória se apresenta
como um grande acelerador, liberando os usuários de se preocuparem com os detalhes internos de execução
e como trabalho do compilador manter essa abstração, sincronização de granularidade fina Primitivos em
a baixa latência uniforme facilita a aceleração de todas as formas de paralelismo entre tensores de limites de integração
geralmente são armazenados fragmentados em SRAM e replicados bem a tempo para a execução das camadas, dependemos do Dojo alto
largura de banda para ocultar essa replicação do tensor de tempo de replicação e outras transferências de dados são sobrepostas à computação
e o compilador também pode recomputar camadas quando for lucrativo fazê-lo
esperamos que a maioria dos modelos funcione imediatamente. Como exemplo, pegamos o modelo de difusão estável lançado recentemente e obtivemos
ele rodando no dojo em minutos fora da caixa, o Kampala foi capaz de mapeá-lo de maneira paralela em 25 matrizes do Dojo
aqui estão algumas fotos de um caminhão cibernético em Marte gerado por difusão estável rodando no dojo
parece [Aplausos]
parece que ainda há alguns caminhos a percorrer antes de combinar com a equipe do Tesla Design Studio
então falamos sobre como os gargalos de comunicação podem prejudicar a escalabilidade, talvez um teste ácido de um compilador e
o hardware subjacente está executando uma camada de formulário cross-diabash como mencionado antes, isso pode ser um gargalo serial
a fase de comunicação de um bacharel começa com os nós Calculando a média local e os desvios padrão e então
coordenando para reduzir esses valores e depois transmitindo esses valores de volta e então eles retomam seu trabalho em paralelo
então, como seria um formulário em lote ideal com 25 pontos Dojo, digamos que o anterior menos ativações
já estão divididos em dados, esperaríamos que 350 nós em cada
morrer para coordenar e produzir os valores médios locais e de divisão padrão, idealmente, estes seriam ainda mais
reduzido com o valor final terminando em algum lugar e no meio do bloco, esperaríamos então ver uma transmissão de
este valor irradiando do centro vamos ver como o compilador realmente executa uma operação real de Bacharel
em 25 dados, as árvores de comunicação foram extraídas do compilador e o
o tempo é de um hardware real, estamos prestes a ver 8.750 nós em 25 matrizes
coordenação para reduzir e depois transmitir as válvulas de média e desvio padrão do bastrum
discar Redução local seguida de redução global no meio do empate
então a transmissão de valor reduzido irradiando do Meio acelerada pela transmissão do Hardware
facilidade esta operação leva apenas cinco
microssegundos em 25 dados Dojo, a mesma operação leva 150 microssegundos em 24
gpus, esta é uma melhoria de ordens de magnitude em relação ao gpus
e embora tenhamos falado de uma operação totalmente reduzida no contexto de uma Norma de lote, é importante reiterar que o
as mesmas vantagens se aplicam a todos os outros primitivos de comunicação e esses primitivos são essenciais para comunicações em grande escala.
treinamento, então que tal o desempenho completo do modelo, enquanto pensamos que 50 ressonante é
não é uma boa representação das cargas de trabalho Tesla do mundo real, é um benchmark padrão, então vamos começar por aí
já somos capazes de igualar os 100 dados por dados, mas talvez uma sugestão de dojo
capacidades é que somos capazes de atingir esse número com apenas um lote de 8 por dado
mas o Dojo foi realmente construído para lidar com modelos complexos maiores, então quando decidimos lidar com o mundo real
cargas de trabalho, analisamos os padrões de uso de nosso cluster de GPU atual e dois modelos resistiram à rotulagem automática
redes, uma classe de modelos off-line usados para gerar informações básicas e as redes de ocupação que você ouviu
sobre as redes de etiquetagem automática são modelos grandes que possuem alta intensidade aritmética enquanto as redes de ocupação
pode ser justo que escolhemos esses modelos porque juntos eles representam uma grande parte do nosso cluster de GPU atual
uso e eles desafiariam o sistema de maneiras diferentes
então, como fazemos nessas duas redes? Os resultados que estamos prestes a ver foram medidos em sistemas multi-die para ambas
a GPU e o Dojo, mas normalizados para números por dado em nossa rede de rotulagem automática, estamos
já é capaz de superar o desempenho de um a100 com nosso hardware atual rodando em nossos vrms de geração mais antiga em
nosso hardware de produção com nossos vrams mais recentes, o que significa dobrar o rendimento de um a100
e nosso modelo mostrou que com algumas otimizações importantes do compilador poderíamos obter mais de três desempenhos extras de um
a100 vemos saltos ainda maiores na rede de ocupação
quase 3x com nossa produção Hardware com espaço para mais
estrangeiro [Aplausos]
nível de desempenho do compilador, poderíamos substituir o cálculo ml de um, dois, três, quatro, cinco e seis GPU
caixas com apenas uma peça Dojo [Aplausos]
e este bloco Dojo custa menos do que uma dessas caixas de GPU, uau
sim, o que isso realmente significa é que as redes
que demorava mais de um mês para treinar agora leva menos de uma semana
infelizmente, quando medimos as coisas, não saiu tão bem no nível da tocha que não vimos
nosso desempenho esperado fora do git e este gráfico de linha do tempo mostra nosso problema nas minúsculas barras verdes que estão
o código de compilação em execução no acelerador, a linha é principalmente um espaço em branco onde o
o hardware está apenas aguardando dados com nossos densos hosts Dojo de computação ml
efetivamente ter 10x mais ml de computação do que o host da GPU, o carregador de dados está sendo executado neste host simplesmente não poderia
acompanhar todo aquele ml Hardware para resolver a escalabilidade do nosso carregador de dados
problemas que sabíamos que teríamos que ultrapassar o limite deste único host o protocolo de transporte Tesla move dados
perfeitamente entre blocos de host e processadores de ingestão, então estendemos o Tesla
protocolo de transporte para funcionar via Ethernet, então construímos a interface de rede dojo chamada dnic para aproveitar o TTP sobre
ethernet, isso permite que qualquer host com uma placa dnic seja capaz de enviá-la por DM e
de outros endpoints TTP, então começamos com a malha dojo
então adicionamos uma camada de hosts de carregamento de dados equipados com o cartão dnic
conectamos esses hosts à malha por meio de um switch Ethernet, agora todos os hosts nesta camada de carregamento de dados são capazes de
alcançando todos os endpoints TTP na malha do dojo via DMA acelerado por hardware
depois que essas otimizações foram implementadas, nossa ocupação passou de quatro por cento
para 97 por cento, então as seções de carregamento de dados foram reduzidas
dados, as seções de carregamento de dados foram reduzidas drasticamente e o hardware ml é mantido ocupado, na verdade esperamos isso
número chegará a 100 logo após a introdução dessas mudanças, vimos a velocidade total esperada do pytorch
camada e estávamos de volta aos negócios, então começamos com o design de hardware que
rompe as fronteiras tradicionais de integração a serviço da nossa visão de um único acelerador gigante
vimos como o compilador e apenas as camadas são construídas sobre esse hardware, então depois de provar seu desempenho em
nessas redes complexas do mundo real, sabíamos qual seria a nossa primeira implantação em grande escala.
intensidade aritmética Rotulagem automática Redes hoje que ocupam 4.000 gpus em 72
Racks de GPU com nosso computador denso e nosso alto desempenho esperamos fornecer o
mesmo rendimento com apenas quatro gabinetes Dojo
[Aplausos]
e esses quatro gabinetes Dojo farão parte de nosso primeiro exópode que planejamos construir no primeiro trimestre de 2023
este mais que o dobro da capacidade de etiquetagem automática da Tesla
[Aplausos] a primeira parte extra faz parte de um total
de sete peças extras que planejamos construir em Palo Alto bem aqui, do outro lado do muro
[Aplausos] e temos uma vitrine de um desses exópodes para todos verem
seis peças densamente compactadas em uma bandeja 54 petaflops de computação 640 gigabytes de
memória de alta largura de banda com potência e host para alimentá-la
muito e estamos criando novas versões de
todos os nossos componentes de cluster e melhorando constantemente nosso software para atingir novos limites de habilidade, acreditamos que
podemos obter outra melhoria de 10x com nosso hardware de próxima geração
e para atingir seus objetivos ambiciosos, precisamos dos melhores engenheiros de software e hardware, então venha falar conosco ou
visite tesla.com AI obrigado [Aplausos]
tudo bem, tudo bem, me avise
tudo bem, então esperamos que tenham sido detalhes suficientes
e agora podemos passar para as perguntas hum e uh pessoal, como eu acho que a equipe
voltou ao palco e queríamos muito mostrar a profundidade
e amplitude de Tesla em uma inteligência artificial
computar atuadores robóticos de hardware e [música]
e tentar realmente mudar a percepção da empresa de, você conhece um
muitas pessoas pensam que somos apenas uma empresa de automóveis ou que fabricamos carros legais, tanto faz, mas uh
eles não têm, a maioria das pessoas não tem ideia de que Tesla é indiscutivelmente o líder em
hardware e software de IA do mundo real e que estamos construindo
uh, o que é sem dúvida o primeiro, uh, alguns dos mais radicais
arquitetura de computadores desde o supercomputador Crayon e acho que se você estiver interessado em
desenvolvendo algumas das tecnologias mais avançadas do mundo que realmente afetarão o mundo em um
maneira positiva, uh, nos diz onde estar, então sim, vamos começar com alguns
perguntas, acho que há um microfone na frente e um
microfone na parte de trás, uh
muito obrigado, fiquei impressionado aqui, sim, fiquei muito impressionado com
Optimus, mas eu me pergunto por que eles não conduziram a caça, por que você escolheu um
abordagem orientada para a caça porque os tendões não são muito duráveis e
por que a mola está bem carregada, isso é muito legal, incrível, sim
essa é uma ótima pergunta, você sabe que quando se trata de qualquer tipo de esquema de atuação, há compensações
entre você saber se é ou não um sistema de urina de tendão ou algum tipo de sistema baseado em ligação, vou apenas manter em mente
mente perto da sua boca um pouco mais perto sim Jeremy legal hum então sim, a principal razão pela qual fomos
para um sistema baseado em tendões é que você sabe que primeiro investigamos alguns tendões sintéticos, mas descobrimos que
cabos metálicos para barcos são muito mais fortes, uma das vantagens desses cabos
hum é que é muito bom para redução de peças, queremos fazer muitas dessas mãos, então ter um monte de peças
um monte de pequenas ligações acaba sendo um problema quando você está fazendo muita coisa, um dos grandes motivos
que você sabe que os tendões são melhores do que as ligações, em certo sentido, é que você pode ser anti-reação
então, essencialmente, a anti-reação, você sabe, permite que você não tenha lacunas ou você
conheça a gagueira Movimento em seus dedos com mola principalmente o que com mola
nos permite fazer é nos permitir ter uma abertura ativa, então em vez de ter que
temos dois atuadores para fechar e depois abrir os dedos, podemos fazer com que o tendão os conduza
fechado e então as molas se estendem passivamente e isso é algo que também se vê em nossas mãos, certo, temos o
capacidade de flexibilizar ativamente e também temos a capacidade de estender, sim
Quero dizer que o nosso objectivo com a Optimus é ter um robô que seja tão útil quanto
o mais rápido possível, então há muitas maneiras de resolver os vários problemas de um robô humanóide
hum e uh, provavelmente não estamos impedindo a árvore certa em todos os aspectos técnicos
Soluções e devo dizer que estamos abertos para evoluir as soluções técnicas que você vê aqui ao longo do tempo
nós não estamos, eles não estão trancados em pedra, mas temos que escolher algo
hum, e queremos escolher algo que nos permita produzir o robô o mais rápido possível
e fazer com que, como eu disse, seja útil o mais rápido possível, estamos tentando seguir o objetivo do caminho mais rápido para um
robô útil que pode ser feito em grande volume e vamos testar o robô internamente na Tesla, em nossa fábrica
e, ah, e veja como isso é útil, porque você precisa ter um
vou fechar o ciclo da realidade para confirmar que o robô é de fato útil
hum e uh sim, então vamos usá-lo para construir coisas e hum, estamos
Estou confiante de que podemos fazer isso com a mão que projetamos atualmente, mas tenho certeza de que eles terão a versão dois
versão três e podemos mudar a arquitetura significativamente ao longo do tempo
desculpe, oi, você é o robô Optimus, é realmente impressionante que você tenha feito um ótimo trabalho
hum, robôs bípedes são realmente difíceis, mas o que percebi que pode estar faltando no seu plano é reconhecer o
utilidade do espírito humano e pergunto-me se algum dia a Optimus terá personalidade e será capaz de rir dos nossos
piadas enquanto eles estão bem, dobra nossas roupas, sim, absolutamente
hum, acho que queremos ter versões realmente divertidas do Optimus
hum, e para que os otimistas possam ser utilitários e realizar tarefas, mas também possam ser
tipo como um amigo e um amigo e um sair com
você e eu temos certeza que as pessoas pensarão em todos os tipos de usos criativos para este robô
hum e uh, você sabe disso quando tem a inteligência central e os atuadores
descobri então você pode realmente colocar todos os tipos de
fantasias, eu acho, no robô, quero dizer, você pode fazer o robô parecer uh
você pode escanear o robô de muitas maneiras diferentes, hum, tenho certeza que as pessoas vão descobrir, uh
maneiras muito interessantes de, sim, versões do Optimus, então
obrigado pela excelente apresentação queria saber se existe equivalente às intervenções no Optimus
parece que rotular os momentos em que os humanos discordam do que está acontecendo é importante e em um robô humanóide
que também pode ser uma fonte desejável de informação
sim, estava dizendo hum, sim, acho que teremos maneiras de
operar remotamente o robô e intervir quando ele fizer algo ruim, especialmente quando estivermos treinando o robô e
trazendo isso à tona, e espero que você saiba projetá-lo de uma forma que possamos impedir o robô de
se vai bater em algo, podemos simplesmente segurá-lo e ele vai parar, não vai tipo, você sabe, esmagar sua mão ou algo assim e tudo isso é intervenção
dados, sim, e podemos aprender muito com nossos sistemas de simulação também, onde pudermos
verifique se há colisões e supervisione se essas são ações ruins, sim, quero dizer, Optimus, queremos ao longo do tempo
para que seja, você conhece um tipo de Android que você viu em filmes de ficção científica como
Star Trek, a próxima geração, como dados, mas obviamente poderíamos programar o robô para ser menos parecido com um robô e mais amigável
e você sabe que obviamente pode aprender a imitar os humanos e se sentir muito natural
então, à medida que a IA em geral melhora, podemos adicionar isso ao robô e
hum, você sabe que obviamente deve ser capaz de executar instruções simples, uh ou até mesmo
nele o que você quer, para que você possa dar uma instrução de alto nível e então ele pode quebrar isso
em uma série de ações e executar essas ações
oi, sim, é emocionante pensar que com o Optimus você vai pensar isso
você pode alcançar ordens de grandeza de melhoria e produção econômica
hum, isso é realmente emocionante, hum, e quando Tesla começou, a missão era acelerar o Advento de
energias renováveis ou transportes sustentáveis então com o Optimus você
ainda vejo essa missão sendo esta declaração de missão da Tesla ou será atualizada com você sabe
missão de acelerar o Advento de não conheço abundância infinita ou
Economia ilimitada, sim, quero dizer, não é estritamente
falando hum, Optimus não é estritamente falando, uh
diretamente alinhado com a aceleração da energia sustentável, você sabe
na medida em que é mais eficiente em fazer as coisas do que uma pessoa, acho que ajuda se você souber
energia sustentável, mas penso que a missão efectivamente se alarga um pouco com o advento da Optimus, uh, para
uh, você sabe que eu não sei tornar o futuro incrível, então você sabe que eu acho que você
olhe para os otimistas e, hum, eu sei sobre você, mas estou animado para ver o que os otimistas se tornarão
e você sabe que isso é como se você pudesse, quero dizer, você pode dizer como qualquer tecnologia
se você quer ver como é daqui a um ano dois anos três anos quatro anos cinco anos dez
Eu diria com certeza que você definitivamente quer ver o que aconteceu com o Optimus, enquanto você conhece um monte de outros
As tecnologias estão meio estagnadas sobre nomes aqui, mas uh
[Risos] hum, você sabe disso
Acho que o Optimus vai ser incrível daqui a cinco anos, dez anos, alucinante e estou realmente
interessado em ver isso acontecer, espero que você também esteja, oh, eu acho
hum, eu tenho uma pergunta rápida aqui, sou Justin e queria saber como você está
planejando estender recursos de conversação para o robô e meu segundo
A pergunta de acompanhamento é qual é o objetivo final qual é o objetivo final com o Optimus
sim, otimistas definitivamente teriam capacidade de conversação, então
hum, eu, você seria capaz de conversar com ele e ter uma conversa e seria bastante
natural, então, do ponto de vista final, estou, estou, não sei, acho que vai continuar
continue evoluindo e não tenho certeza de onde isso vai parar, mas
algum lugar interessante, com certeza, você sabe que sempre temos que ter cuidado
sobre o que você sabe, não siga o caminho do Exterminador do Futuro, uh, isso é você sabe, eu, eu
pensei que talvez devêssemos começar com um vídeo como o Exterminador do Futuro começando com isso, você sabe, caveira
esmagador, mas, ah, pode ser, não sei se você quer levar isso muito a sério, então sim, você sabe que queremos que o Optimus
esteja seguro, então estamos projetando salvaguardas onde você pode, uh, localmente
pare o robô, hum, e você sabe, basicamente com um localizado
controlar ROM que você não pode atualizar pela Internet, o que acho muito importante
hum, essencial, francamente, hum, então
uh, como um botão de parada localizado, um controle remoto, algo como
que isso não pode ser mudado hum
mas quero dizer que definitivamente será interessante, não será chato, então
ok, sim, vejo você hoje, você tem um produto muito atraente com dojo e suas aplicações, então estou me perguntando qual é o problema
futuro para a plataforma Dojo, gostaríamos de fornecer uma infraestrutura e serviços como AWS ou
você será como um chip de vendas como o da Nvidia, então basicamente qual é o futuro por causa do que eu digo, você usa um sete
nanômetro, então o custo do desenvolvedor é facilmente superior a 10 milhões de dólares americanos, como você faz o pênis parecer um negócio
sim, quero dizer, um Dojo é um computador muito grande e na verdade usaremos muito
energia e precisa de muito resfriamento, então acho que provavelmente fará mais sentido ter o Dojo operando como uh
Amazon Web Services é uma maneira diferente de tentar vendê-los para outra pessoa
hum, então a maneira mais eficiente de operar o Dojo é apenas fazer com que seja um serviço que você
pode usar, uh, que está disponível on-line e onde você pode treinar seus modelos
mais rápido e por menos dinheiro e que como o
um mundo transiciona para software 2.0
e isso está na cartela de bingo, alguém que eu conheço tem que saber beber cinco tequilas
hum, então vamos ver um software 2.0
[Risos] sim, usaremos muita rede neural
treinando, então, você sabe, faz sentido que, com o tempo, haja mais
coisas da rede que as pessoas vão querer usar e, uh, o neural mais rápido e de menor custo
sistema de treinamento online, então acho que há muitas oportunidades nessa direção
oi meu nome é Ali Jahanian obrigado por este evento é muito inspirador meu
A pergunta é: estou me perguntando qual é a sua visão, uh
robôs humanitários que entendem nossas emoções e arte e podem contribuir para
nossa criatividade, bem, acho que tem isso, você é
já estou vendo robôs que pelo menos são capazes de gerar coisas muito interessantes
arte com Dali um e Dali 2. hum
e acho que começaremos a ver IA que pode realmente gerar até filmes que tenham coerência
gosto de filmes interessantes e conte piadas, então é notável o quão rápida a IA é
uh, avançando em muitas empresas além da Tesla
estamos caminhando para um futuro muito interessante e, sim, então
vocês querem comentar sobre isso, sim, eu acho que o robô Optimist pode criar arte física, não apenas arte digital
você sabe que pode pedir alguns movimentos de dança em texto ou voz e então você pode produzi-los no futuro, então
é muito parecido com o coração físico, não apenas com a arte digital, ah, sim, os computadores podem absolutamente
faça uma arte física, sim, sim, 100, sim, como dançar, claro, jogar futebol ou o que você quiser
hum, quero dizer, ele precisa ficar mais ágil, mas com o tempo, com certeza
muito obrigado pela apresentação dos slides do piloto automático Tesla que notei
que os modelos que você estava usando eram fortemente motivados por modelos de linguagem e eu queria saber qual é a história disso
foi e o quanto isso melhorou, pensei que era uma escolha realmente interessante e curiosa de usar
modelos de linguagem para a transição de pista, então há dois aspectos que explicam por que fizemos a transição para a modelagem de linguagem
a primeira conversa fale alto e próximo Ok, ok, entendi
sim, então os modelos de linguagem nos ajudam de duas maneiras. A primeira maneira é que nos permite prever pistas que não poderíamos ter
caso contrário, como um tremor mencionado anteriormente, basicamente quando previmos Lanes em um estilo 3D denso, você só pode
modelar certos tipos de pistas, mas queremos obter essas conexões cruzadas dentro das interseções, simplesmente não é possível fazer isso sem torná-lo um
previsão de gráfico, se você tentar fazer isso com segmentação densa, simplesmente não funciona. Além disso, a previsão de pista é multimodal
problema, às vezes você simplesmente não tem informações visuais suficientes para saber exatamente como as coisas ficam do outro
lado da interseção, então você precisa de um método que possa generalizar e produzir, você sabe, previsões coerentes que você
não queira prever duas pistas em três pistas ao mesmo tempo, você deseja se comprometer com uma em um modelo generativo como esses modelos de linguagem fornece isso
oi oi oi uh meu nome é Giovanni hum sim, obrigado pela apresentação
isso é muito bom, tenho uma pergunta para nossa equipe FSD, então para as redes neurais, como você
teste como você faz testes de unidade de software de teste de unidade sobre isso, você tem um monte ou não sei no meio
milhares ou uh sim uh casos em que
então a rede neural que depois de treiná-la você tem que passá-la antes de liberá-la como um produto certo, uh sim
quais são as suas estratégias de teste de unidade de software para isso, basicamente, sim, que bom que você perguntou, há uma série de testes
que definimos, a partir de você conhece o teste de unidade para o software em si, mas para os modelos de rede neural, temos conjuntos VIP definidos onde
você sabe que pode definir, se você tiver apenas um grande conjunto de testes que não seja suficiente, o que achamos que precisamos
sofisticados conjuntos VIP para diferentes modos de falha e então nós os selecionamos e os desenvolvemos ao longo do tempo
produto, então, ao longo dos anos, temos centenas de milhares de exemplos em que falhamos no passado
que selecionamos e, portanto, para qualquer novo modelo, testamos em relação a toda a história dessas falhas, uh e então
continue adicionando a este conjunto de testes, além disso, temos modos Shadow, onde enviamos esses modelos em silêncio para
o carro e obtemos dados sobre onde eles estão falhando ou tendo sucesso. E há um extenso programa de controle de qualidade, é muito
é difícil enviar uma regressão, há nove níveis de filtros antes que ela chegue aos clientes, mas então temos resultados realmente bons
infra para tornar tudo isso eficiente e sou um dos testadores de controle de qualidade, então faço controle de qualidade
o carro, sim, como um Criador, sim, então estou constantemente no carro apenas sendo
na fila como qualquer que seja a versão alfa mais recente que não trave totalmente
encontra muitos bugs, oi, ótimo evento, tenho uma pergunta
sobre uh modelos fundamentais para uh, todos eu já vi grandes modelos que
realmente pode quando você aumenta com dados e parâmetros de modelo direto do GT3 para
Palm, agora ele pode raciocinar, você vê que é essencial esfolar
criar modelos básicos com dados e tamanho e então pelo menos você poderá obter uma
modelo de professor certo que potencialmente pode resolver todos os problemas e então você destila para um modelo de aluno é assim
você vê modelos básicos relevantes para 100, quero dizer, isso é bastante semelhante ao nosso modelo de etiquetagem automática, então não
apenas temos modelos que rodam no carro, treinamos modelos totalmente off-line que são extremamente grandes que não podem
rodamos em tempo real no carro, então apenas rodamos off-line nos servidores, produzindo rótulos realmente bons
que pode então treinar as redes on-line, de modo que essa seja uma forma de destilação de
esses modelos de professor-aluno em termos de modelos básicos, estamos construindo alguns realmente grandes
conjuntos de dados que você sabe que têm vários petabytes e estamos vendo que algumas dessas tarefas funcionam muito bem quando
ter grandes conjuntos de dados como a cinemática como mencionei o vídeo em toda a cinemática de todos os objetos
e até a quarta derivada e as pessoas pensavam que não poderíamos fazer detecção com velocidade de profundidade de detecção de câmeras
aceleração e imagine quão precisos eles devem ser para que essas derivadas de ordem superior sejam precisas e tudo isso
vem desses grandes conjuntos de dados e grandes modelos, então estamos vendo o equivalente a modelos básicos à nossa maneira para
geometria e cinemática e coisas como essas que você deseja adicionar qualquer coisa John
sim, vou ser breve, basicamente, sempre que treinamos em um conjunto de dados maior, vemos tudo bem, basicamente sempre que
treinar em um conjunto de dados maior, vemos grandes melhorias no desempenho de nosso modelo e basicamente sempre que inicializamos nosso
redes com você conhece alguma etapa de pré-treinamento de alguma outra tarefa auxiliar, basicamente vemos melhorias no
auto-supervisionado ou supervisionado com grandes conjuntos de dados ajudam muito
ei, então no início Elon disse que Tesla estava potencialmente interessado em construir inteligência artificial geral
sistemas, dado o impacto potencialmente transformador de uma tecnologia como essa, parece prudente investir em
segurança técnica AGI uh experiência especificamente, eu sei que Tesla faz muito
técnico restrito AI Safety Research Eu estava curioso para saber se Tesla pretendia
tentar desenvolver experiência em segurança técnica de inteligência geral artificial, especificamente
bem, se quero dizer se começar a parecer que vamos fazer uma contribuição significativa para a artificialidade
inteligência geral, então com certeza investiremos em segurança. Acredito muito na segurança da IA, acho que sim
deveria ser uma IA, uh, uma espécie de autoridade reguladora em nível governamental, assim como existe uma
Autoridade reguladora para qualquer coisa que afete a Segurança Pública, então temos uma Autoridade Reguladora para aeronaves e
carros e algum tipo de comida e drogas e porque afetam a segurança pública e a IA
também afeta a segurança pública, então acho que isso não é algo que o governo ainda entenda, mas acho que
acho que deveria haver um árbitro que esteja garantindo hum ou tentando garantir, uh Público
Segurança para uh AGI hum e você pensa bem como o que são
os elementos necessários para criar AGI como, uh, o conjunto de dados acessível são extremamente
importante e se você tem um grande número de carros e robôs humanóides, uh
processando você conhece petabytes de dados de vídeo e
dados de áudio do mundo real, assim como os humanos, isso pode ser
o maior conjunto de dados provavelmente é o maior conjunto de dados, porque além disso você pode
obviamente, escaneie gradativamente a internet, mas o que a internet não consegue fazer é
é ter milhões ou centenas de milhões de câmeras no mundo real
como eu disse com áudio e outros sensores também, então acho que
provavelmente terá a maior quantidade de dados e provavelmente a maior quantidade de TR de
poder de treinamento, portanto, provavelmente, faremos um
contribuição para a AGI
ei, notei que o semi-caminhão estava lá atrás, mas não conversamos muito sobre isso, só estava pensando no semi-caminhão
quais são as mudanças que você está pensando de uma perspectiva sensorial, imagino que sejam muito diferentes
requisitos obviamente do que apenas um carro se e se você não acha que isso é verdade, por que isso é verdade
uh não, eu acho que basicamente você pode dirigir um carro, quero dizer, pense sobre o que dirige qualquer veículo, é um biológico
rede neural uh com uh com olhos com câmeras essencialmente então se hum e realmente
quais são os seus sensores primários são duas câmeras em um gimbal lento muito
gimbal lento hum, essa é a sua cabeça, então se
se você sabe se uma rede neural biológica com duas câmeras em um gimbal lento pode dirigir um semi-caminhão, então
hum, se você tiver oito câmeras com visão contínua de 360 graus, uh
operando em uma taxa de quadros mais alta e uma taxa de reação muito mais alta, então acho que é óbvio que você deve ser capaz de dirigir um semi ou qualquer veículo com muito mais frequência
melhor que um humano, oi, meu nome é Akshay, obrigado pela
evento uh, supondo que você saiba que o Optimus seria usado para diferentes casos de uso e
evoluiria em partes diferentes para esses casos de uso, seria possível
para desenvolver e implantar diferentes componentes de software e hardware de forma independente e implantá-los, você sabe
no Optimus para que o desenvolvimento geral de recursos que você conhece seja mais rápido para
Referência Optimus às perguntas
ok, tudo bem, não compreendemos, infelizmente nossa rede neural não compreendeu a pergunta
ah, sim, tudo bem, próxima pergunta
Quero mudar para o piloto automático, então, quando vocês planejarem lançar o
FSD beta para outros países além de nós e do Canadá e também a minha próxima pergunta é
qual é o maior gargalo ou barreira tecnológica que você acha na parte do pedido atual da pilha e como
você pretende resolver isso para fazer com que o piloto automático seja consideravelmente melhor que o humano em termos de uma Matriz de desempenho
garantia de segurança e confiança humana, acho que você também combina com 4V uh fstb
ou o que quer que vocês vão combinar a rodovia e a cidade como uma única pilha e alguma arquitetura, uh
grande melhoria, talvez você possa experimentar um pouco nisso, obrigado, bem, isso é um monte de
perguntas bem, nós, nós, estamos esperançosos de poder, eu acho
do ponto de vista técnico, um FSD beta deveria ser possível lançar esse sfsd beta uh
em todo o mundo até o final deste ano, hum, mas você conhece há muito tempo
países, precisamos de aprovação regulatória e, portanto, estamos um tanto limitados pela aprovação regulatória em outros países
hum, mas eu, você sabe, mas acho que do ponto de vista técnico ele estará pronto para
vá para um beta mundial até o final deste ano e há um grande
Melhoria que esperamos lançar no próximo mês, uh, que sempre será especialmente boa em uh
avaliando a velocidade do tráfego cruzado rápido e um monte de outras coisas para que qualquer um elabore
para os objetos sim, acho que costumava haver muitas diferenças entre a produção
piloto automático e o beta totalmente autônomo, mas essas diferenças têm ficado cada vez menores com o tempo, eu acho
apenas alguns meses atrás, agora usamos a mesma pilha de detecção de objetos somente de visão no FSD e na produção
piloto automático em todos os veículos, ainda há algumas diferenças, sendo a principal a maneira como
prever Lanes agora, então atualizamos a modelagem de Lane para que ele pudesse lidar com essas geometrias mais complexas, como mencionei na palestra em
piloto automático de produção, ainda usamos um modelo de pista mais simples, mas estamos estendendo nossos modelos beta FSD atuais para funcionar em
todos os tipos de cenários de rodovia também, sim, e a versão do FST
beta que eu dirijo, na verdade, tem a pilha integrada, então, uh, ele usa o
Pilha FSD nas ruas da cidade e na rodovia e funciona muito bem para mim, mas precisamos validá-la em
todos os tipos de clima, como chuva forte, neve, poeira, hum e uh, e apenas certifique-se de que está
trabalhando melhor do que a pilha de produção, você sabe, em uma ampla gama
de ambientes, mas estamos bem perto disso, quero dizer, acho que não sei, talvez
Com certeza estarei antes do final do ano e talvez de novembro. Sim, em nossas unidades pessoais, uh, o FSD
pilha em drives Highway já é muito melhor do que a pilha de produção que temos e esperamos incluir também o
pilha de estacionamento como parte da pilha FSC antes do final deste ano, então isso basicamente nos levará até você
sente-se no carro no estacionamento e dirija até o final do estacionamento em uma vaga antes do final deste
ano sim e em termos semelhantes, a fundamental a métrica fundamental para otimizar é
hum, quantas milhas por entre uma intervenção necessária, então
hum, apenas melhorando enormemente o número de milhas que o carro pode percorrer na íntegra
autonomia antes que uma intervenção seja necessária que seja crítica para a segurança, hum, então
sim, essa é a métrica fundamental que medimos toda semana e estamos radicalizando
melhorias nisso oi obrigado oi muito obrigado por
a apresentação é muito inspiradora, meu nome é Daisy, na verdade tenho um conhecimento não técnico
pergunta para você, estou curioso. Se você voltou aos 20 anos, quais são algumas das
as coisas que você gostaria de saber naquela época quais são alguns conselhos que você daria ao seu eu mais jovem
bem, estou tentando descobrir algo útil para dizer
sim, sim, eu entrei na Tesla seria uma coisa, hum
hum, sim, acho que geralmente tente se expor ao máximo de pessoas inteligentes
possível e li muitos livros
hum, você sabe que eu faço isso, mas fiz isso, uh
então, acho que há algum mérito nisso também
uh, gosto de não ser necessariamente muito intenso, uh, e gosto de aproveitar o
um pouco mais, eu diria aos 20 ou 20 alguma coisa, só para você saber, uh
parar e cheirar as rosas ocasionalmente provavelmente seria uma boa ideia
hum, você sabe, é como quando estamos desenvolvendo o foguete Falcon One
e no atol quadriline e tínhamos uma linda ilhota que
estamos desenvolvendo o foguete e nem uma vez durante todo esse tempo eu tomei uma bebida no
praia, eu estou bem, eu deveria ter tomado uma bebida na praia, isso teria sido bom
muito obrigado, acho que você empolgou todo o pessoal da robótica com
com o Optimus, uh, isso parece muito com a direção de 10 anos atrás, mas como uh
dirigir provou ser mais difícil do que parecia há 10 anos, o que sabemos agora que não sabíamos há 10 anos
isso faria, por exemplo, AGI em um humanóide vir mais rápido
bem, quero dizer, parece-me que a IES está avançando muito rapidamente, hum
dificilmente passa uma semana sem algum anúncio significativo e, sim, quero dizer
neste ponto, a IA parece ser capaz de vencer em quase todos os jogos baseados em regras
uh, é capaz de criar arte extremamente impressionante, hum
envolva-se em conversas muito sofisticadas, você sabe
escreva ensaios e estes continuam melhorando
hum, e há muito mais, muitas pessoas talentosas trabalhando
na IA e o hardware está melhorando, acho que é uma IA que está em um super
como uma forte curva exponencial de melhoria independente do que fazemos em
Tesla, hum, e obviamente nos beneficiaremos um pouco dessa curva exponencial de
melhoria com IA acessível também é muito
bom em atuadores que Motores você conhece Motores caixas de câmbio controladores Baterias eletrônicas de potência
hum sensores e hum você sabe realmente como eu digo que você sabe
a maior diferença entre o robô de quatro rodas e o robô com braços e pernas é conseguir os atuadores
certo, na verdade, é um problema de atuadores e sensores, e obviamente você sabe como
controlar esses atuadores e sensores, mas é sim, atuadores e sensores e como você
controlar os atuadores é um eu sei onde você deve ter os ingredientes necessários para criar um
robô atraente e estamos fazendo isso
oi Elan, você está realmente trazendo a humanidade para o próximo nível, literalmente Tesla e
você está trazendo a humanidade para o próximo nível, então você disse Optimus Prime, uh
Optimus será usado na próxima fábrica da Tesla, minha pergunta é se um novo Tesla
A fábrica será totalmente gerida pelo programa Optimus e
e quando o público em geral pode ordenar um humanóide, sim, acho que você saberá que estamos
vou começar os otimistas com tarefas muito simples na fábrica, você sabe, talvez apenas como carregar
separado como você viu no vídeo carregando uma parte, você sabe, carregando separado de um
lugar para outro ou carregar uma peça em um de nossos robôs mais convencionais
células, você sabe, uh, que soldam o corpo, então vamos começar, você sabe
apenas tentando saber como podemos torná-lo útil e, em seguida, expandir gradualmente o número de situações em que é
útil, hum, e penso que esse é o número de situações em que o Optimus
é útil, vai crescer exponencialmente, realmente, muito rápido
hum, em termos de quando as pessoas podem pedir um, não sei, acho que não é tão longe
embora, bem, acho que você quer dizer quando as pessoas podem receber um
hum, então eu não sei, eu diria que provavelmente dentro de três anos não estarei mais
mais de cinco anos dentro de três a cinco anos você provavelmente poderá receber um Optimus
Sinto que a melhor maneira de progredir para agis é envolver o maior número possível de pessoas inteligentes em todo o mundo e dado
o tamanho e os recursos da Tesla em comparação com empresas de robôs e dado o estado da pesquisa da humanidade no momento
não faria sentido para o tipo de Tesla abrir o código-fonte de alguns dos
peças de hardware de simulação, acho que Tesla ainda pode ser o jogo de plataforma dominante
onde pode ser algo como sistema operacional Android ou iOS para todo o ser humano ou pesquisa seria isso
algo que, em vez de manter o Optimus apenas para pesquisadores da Tesla ou para o
a própria fábrica pode abri-la e deixar o mundo inteiro explorar a pesquisa humana
hum, acho que temos que ter cuidado com o fato de o Optimus ser potencialmente uh usado de maneiras ruins, uh, porque esse é um
das coisas possíveis a fazer, então acho que você saberia
fornecer otimistas onde você pode fornecer instruções aos otimistas, mas onde essas instruções
você sabe, você é governado por algumas leis da robótica que você não pode superar
então você sabe que não está fazendo mal aos outros e uh
acho que provavelmente teria algumas coisas relacionadas à segurança com o Optimus, sim, então tudo bem, vamos
apenas responda talvez mais algumas perguntas e então e então obrigado a todos por terem vindo
perguntas um profundo e um amplo no fundo para Optimus qual é o
atual e qual é a largura de banda ideal do controlador e, em seguida, na questão mais ampla, há esse grande
anúncio da profundidade e amplitude da empresa, o que ela tem de único
Tesla que permite que qualquer um queira lidar com a largura de banda
pergunta sim, sim, então a largura de banda técnica do traje
ok para a questão da largura de banda, você precisa entender ou descobrir qual é o
tarefa que você queria fazer e o que é grátis se você fizer uma transformação de frequência dessa tarefa, o que é isso
você deseja que seus membros façam e é daí que você obtém sua largura de banda, não é um número que você possa dizer especificamente que precisa entender seu uso
caso e é daí que vem a largura de banda, ok, qual é a questão geral
Não me lembro bem da questão da amplitude e profundidade, posso responder à amplitude e profundidade, mas sim
Eu fui interessante por trás da pergunta, acho que provavelmente acabaremos aumentando a largura de banda ou você
saiba o que se traduz no efeito da destreza e no tempo de reação do robô
hum, como se você pudesse salvar estados, não é um Hertz e talvez você não precise ir
até 100 Hertz, mas não sei, talvez 10 25, não sei
com o tempo, acho que a largura de banda aumentará um pouco, uh, ou traduzida em uh, destreza e latência
hum, você gostaria de minimizar isso ao longo do tempo, sim, minimizar a latência, maximizar a destreza
hum, quero dizer, em termos de amplitude e profundidade, acho que você sabe que temos
somos uma empresa muito grande neste momento, então temos muitas áreas de especialização diferentes que necessariamente precisamos
desenvolver para tornar autônomos ou para fabricar carros elétricos e depois para fabricar carros elétricos autônomos
carros, um, nós temos, quero dizer, Tesla é basicamente uma série de startups e
até agora, quase todos tiveram muito sucesso, então devemos estar fazendo algo certo
hum, e você sabe que considero uma das minhas principais responsabilidades, a empresa iraniana é ter um ambiente onde
uh, ótimos engenheiros podem florescer e acho que em muitas empresas
Eu não sei, talvez a maioria das empresas, se alguém é um engenheiro realmente talentoso, eles são incapazes de realmente
uh, seus talentos são suprimidos em muitas empresas e você sabe
e e algumas das empresas cujo talento de engenharia é suprimido de uma forma que talvez não seja obviamente ruim
mas onde é tão confortável e você pagou tanto dinheiro e você, mas você é a saída que realmente precisa
a produção é tão baixa que é como uma armadilha de mel, você sabe, então há alguns
Honey Trap, uh, lugares no Vale do Silício, onde eles não estão necessariamente, não parecem lugares ruins para engenheiros, mas
você disse que um bom engenheiro entrou e o que eles saíram
e a produção desse talento de engenharia parece muito baixa
mesmo que pareça estar se divertindo, é por isso que eu chamo isso, há algumas empresas Honey Trap em
O Vale do Silício, uh, Tesla não é uma armadilha de mel que estamos exigindo e é como se você fosse fazer muito
hum e vai ser muito legal hum e você sabe que não vai ser fácil
mas uh, se você é um engenheiro super talentoso, seus talentos serão usados, eu
pense em um grau maior do que em qualquer outro lugar
você conhece a SpaceX também dessa forma, então Highline uh uh, eu tenho duas perguntas, então
ambos para a equipe do piloto automático, então a questão é: uh, tenho acompanhado seu progresso nos últimos anos, então hoje
vocês fizeram alterações como a detecção lean, como você disse, como antes, vocês estão fazendo segmentação semântica instantânea, agora vocês estão
construímos modelos de transferência para construir as pistas, então quais são alguns outros desafios comuns que vocês
você está enfrentando agora, algo que você está resolvendo no futuro como um engenheiro curioso, para que assim como nós, como pesquisadores, possamos trabalhar
sobre eles, comece a trabalhar neles e a segunda pergunta é: estou realmente curioso sobre o mecanismo de dados como você
caras contaram um caso em que o carro está parado, então como vocês estão encontrando casos que são muito semelhantes
a partir dos dados que você tem um pouco mais no mecanismo de dados seria ótimo, então está tudo bem
hum, vou começar a responder a primeira pergunta, usando a rede de ocupação como exemplo, então, o que você viu na apresentação
não existia há um ano, então passamos apenas um ano, estou em relacionamento com mais de 12 ocupações
Rede e você tem um modelo de base única para representar todo o
mundo físico em todos os lugares e você sempre a condição é realmente muito
realmente desafiador, então há apenas mais de um ano éramos como dirigir um 2D onde se houvesse uma guerra e
diz curva que representamos com a mesma borda estática que obviamente você sabe que não é ideal, certo, há um
grande diferença entre uma curva e uma parede quando você dirige você faz escolhas diferentes logo depois que percebemos isso
temos que ir para 3D, basicamente temos que ressincronizar todo o problema e pensar em como resolveremos isso, então isso vai
seja como um exemplo dos desafios que temos, uh uh, temos uma conquista no ano passado
sim, para responder à pergunta sobre como realmente obtemos exemplos de carros parados complicados, há alguns caminhos a percorrer
sobre isso, mas dois exemplos são aqueles que podemos desencadear para divergências dentro de nossos sinais, então digamos que aquele bit estacionado
oscilações entre estacionar e dirigir irão acionar isso de volta e a segunda é que podemos aproveitar mais o modo Shadow
lógica, então se o cliente ignorar o carro, mas acharmos que devemos parar para isso, recuperaremos esses dados também, então estes são apenas
diferentes, como várias lógicas de gatilho que nos permitem recuperar essas campanhas de dados
oi, obrigado pela apresentação incrível, muito obrigado, então
há muitas empresas que estão se concentrando no problema AGI e uma das razões pelas quais é um problema tão difícil é
porque o problema em si é tão difícil de definir, várias empresas têm várias definições diferentes nas quais se concentram
coisas diferentes, então o que é Tesla, como Tesla está definindo o problema da ATI e no que você está focando especificamente
bem, bem, na verdade não estamos focados especificamente em AGI, estou simplesmente
dizer que HGI é assim parece ser uma propriedade emergente do que estamos
fazendo hum porque estamos criando todos esses carros autônomos e humanóides autônomos
hum, que na verdade estão dentro de um fluxo de dados verdadeiramente gigantesco que está chegando
e sendo processado, é de longe a maior quantidade de dados do mundo real e dados que você não consegue obter
só pesquisando na internet porque você tem que estar no mundo e interagindo com as pessoas e interagindo com as estradas e só você
sei que a Terra é um lugar grande e a realidade é confusa e complicada, então eu acho que é tipo, uh
provavelmente apenas parece ser uma propriedade emergente de se você conhece dezenas ou centenas de milhões de
veículos autônomos e talvez até um número comparável de humanóides, talvez mais do que isso na frente humanóide
bem, isso é apenas a maior quantidade de dados e se esse vídeo estiver sendo processado
parece provável que você saiba que os carros definitivamente ficarão muito melhores que os humanos
motoristas e os robôs humanóides se tornarão cada vez mais
indistinguível dos humanos, talvez e então, como você disse, você tem um
propriedade emergente de AGI um
e, sem dúvida, os humanos que você conhece coletivamente são uma espécie de superinteligência, especialmente porque nós
melhorar a taxa de dados entre humanos, quero dizer, acho que isso parece ter acontecido nos primeiros dias em que a Internet era
como se a internet fosse como se a humanidade adquirisse um sistema nervoso onde agora, de repente, qualquer um
elemento da humanidade poderia conhecer todo o conhecimento dos humanos conectando-se
para a internet quase todo o conhecimento ou certamente grande parte dele, enquanto anteriormente, uh, trocaríamos
informações por osmose, você sabe, teríamos que gostar para transferir dados, então você teria que escrever uma carta
alguém teria que levar a carta de pessoa para outra pessoa e depois um monte de coisas entre e
então era assim, sim, quero dizer, é incrivelmente lento quando você pensa sobre
é, hum, e mesmo se você estivesse na Biblioteca do Congresso, você ainda não teria acesso a todas as informações do mundo e você
certamente não consegui pesquisá-lo e sei que obviamente muito poucas pessoas estão na Biblioteca do Congresso, então
hum, quero dizer, um dos grandes, uma espécie de elementos de igualdade
como a internet tem sido o maior equalizador da história em
termos de acesso à informação ou conhecimento, em qualquer estudante de História, eu acho
concordaria com isso porque você sabe que há mil anos atrás, havia muito poucos livros como
e os livros seriam incrivelmente caros, mas apenas algumas pessoas sabiam ler e somente se um número ainda menor
muitas pessoas até tinham um livro agora, olhe para ele como se você pudesse acessar qualquer livro instantaneamente, você pode aprender
qualquer coisa basicamente de graça é incrível, então
você sabe, me perguntaram recentemente qual período da história eu preferiria estar
no máximo e minha resposta foi agora
este é o momento mais interessante da história e eu li muita história
então vamos, sim, vamos fazer o nosso melhor para continuar assim, sim
e voltando a uma das primeiras perguntas, eu responderia como você pode, o que aconteceu ao longo do tempo
com relação ao piloto automático Tesla é que temos apenas o
as redes neurais conseguiram gradualmente absorver mais e mais software e no limite é claro que você
poderia dizer simplesmente pegar os vídeos vistos pelo carro e compará-los com estes
as entradas de direção do volante e dos pedais, que são entradas muito simples, uh, e em princípio você poderia
treine sem nada no meio, porque é isso que os humanos estão fazendo com uma rede neural biológica que você poderia treinar
baseado em vídeo e o que treina o vídeo é o movimento de
o volante e os pedais sem nenhum outro software entre eles ainda não chegamos lá, mas está gradualmente
indo nessa direção, tudo bem, espere a última pergunta
você vai, uh, acho que temos uma pergunta aqui na frente, uh, olá, aí mesmo, farei duas
perguntas, tudo bem aí, oi, uh, obrigado por uma ótima apresentação, bem, a velha pergunta é a última
hum, com o FSD sendo usado por tantas pessoas, você acha qual é o problema, como você avalia o risco da empresa
tolerância em termos de estatísticas de desempenho e você acha que é preciso haver mais transparência ou regulamentação de terceiros sobre como o que é bom
o suficiente e definindo limites semelhantes para desempenho, uh, entre
algumas milhas, claro, você sabe que eu
o requisito número um de design na Tesla é a segurança, e isso
é transversal, portanto, em termos de segurança mecânica do carro, temos a menor probabilidade de ferimentos entre todos os carros
já testado pelo governo apenas para uma segurança mecânica passiva essencialmente
estrutura de colisão e airbags e outros enfeites, uh, temos o melhor, uh, o mais alto
classificação para segurança ativa também e acho que isso vai direto ao ponto
onde você, o ato de segurança é tão ridiculamente bom, é, é, é absurdamente melhor do que um humano
hum, e então com relação ao piloto automático, nós publicamos isso de forma ampla
falando das estatísticas de milhas percorridas com carros que não têm
autonomia ou carros Tesla sem autonomia com uma espécie de hardware um Hardware dois
Hardware três e depois aqueles que estão no FSD beta
hum, e vemos melhorias constantes ao longo do caminho, e você sabe que às vezes há isso
dicotomia de você sabe, você deveria esperar até o carro ficar tipo, eu não sei, uh
três vezes mais seguro do que uma pessoa antes de implantar qualquer tecnologia, mas acho que isso é moralmente errado
hum, no ponto em que você acredita que adicionar autonomia, uh, reduz uh
ferimentos e morte, acho que você tem a obrigação moral de implantá-lo, mesmo que você vá
ser processado e culpado por muitas pessoas porque as pessoas cujas vidas você salvou não sabem que suas vidas são
salvos e as pessoas que ocasionalmente morrem ou ficam feridas, elas definitivamente conhecem ou seus bens, uh
que você sabe o que há de problema com o piloto automático, é por isso que você tem que olhar para
os números em termos de quilómetros percorridos quantos acidentes ocorreram quantos acidentes foram graves quantos
fatalidades e você sabe que temos bem mais de três milhões de carros na estrada, então são muitos quilômetros percorridos
todos os dias não vai ser perfeito, mas o que importa é que é claramente mais seguro, uh, do que não
implantando, sim, então acho que última pergunta
Acho que sim, obrigado, qual é a última pergunta aqui
ok, sim, entendi, ok, oi, então
hum, eu não trabalho com hardware, então talvez a equipe de hardware e vocês possam
me esclareça, por que é necessário que haja simetria
hum, no design do Optimus porque os humanos, uh, temos lateralidade, certo?
usamos alguns conjuntos de músculos mais do que outros ao longo do tempo, há desgaste
ah, certo, então talvez você comece a ver algumas falhas nas juntas ou algum atuador
falhas mais ao longo do tempo eu entendo que isso é extremamente pré-estágio
hum, também nós, como humanos, baseamos tanta fantasia e ficção em super-humanos
capacidades como se todos nós não quiséssemos andar ali, queremos estender os braços e como se todos tivéssemos
estes você conhece muitos designs fantásticos de fantasia, então considerando
tudo o mais que está acontecendo em termos de baterias e intensidade de
calcule, talvez você possa aproveitar todos esses aspectos para criar algo
bem, eu não sei mais interessante em termos do robô que você é
construindo e espero que você seja capaz de explorar essas direções, sim, quero dizer, acho que seria legal
você sabe, tornar o Inspetor Gadget real, isso seria muito legal, então sim, quero dizer, você sabe agora que nós
só quero fazer um humanóide básico que funcione bem e nosso objetivo é o caminho mais rápido
para um robô humanóide útil, acho que isso nos fundamentará na realidade
literalmente hum e garantir que estamos fazendo
algo útil como uma das coisas mais difíceis de fazer é ser útil, uh,
na verdade, então e então, para ter alta utilidade sob a curva, como quantas pessoas você ajudou no tempo que você conhece e
quanta ajuda você forneceu a cada pessoa em média
e quantas pessoas você ajudou na utilidade total, como tentar realmente enviar um produto útil
que as pessoas gostam de um grande número de pessoas é tão insanamente difícil que confunde
a mente, hum, você sabe, é por isso que eu poderia dizer como cara, há uma grande diferença entre uma empresa que muda de produto e outra que não tem certeza do produto, uh, é um
jogo, isso é noite e dia, e mesmo depois de enviar o produto, você pode fazer com que o custo seja o valor do
a produção vale mais do que o custo da entrada, o que é novamente extremamente difícil, especialmente com Hardware, então
hum, mas acho que com o tempo acho que é legal fazer coisas criativas e ter oito braços e tudo mais
hum e tem versões diferentes uh e talvez você saiba que haverá algum hardware
como empresas que são capazes de acrescentar coisas a um otimista como talvez tenhamos
você sabe que foi adicionado a uma porta de alimentação ou algo parecido ou anexe-os, você pode adicionar, você sabe, adicionar anexos ao seu
Otimista, como você pode adicioná-los ao seu telefone, pode haver muitas coisas legais que podem ser feitas ao longo do tempo e podem
talvez seja um ecossistema de pequenas empresas que ou empresas que fazem complementos para
Optimus então com isso uh uh apenas agradeça à equipe pelo seu trabalho duro
uh, vocês são incríveis e uh sim e uh obrigado
você e uh, obrigado a todos por terem vindo e a todos on-line, obrigado por sintonizarem
hum, e eu acho que este será um daqueles ótimos vídeos em que você pode curtir se puder avançar rapidamente para os bits
que você acha mais interessante, mas tentamos fornecer uma quantidade enorme de detalhes, literalmente, para que você possa olhar
o vídeo quando quiser e você pode se concentrar nas partes que achar interessantes e pular as outras partes, uh
então, obrigado a todos, e faremos isso, tentaremos fazer isso todos os anos e, uh, podemos fazer uma parte de um podcast mensal, mesmo
hum, então, uh, mas acho que será, você sabe, ótimo, mais ou menos
trazer você para um passeio e mostrar que coisas legais estão acontecendo e, sim, obrigado