新闻资讯
你的位置: 首页 > 新闻资讯

做瑜伽分类货品特斯拉“擎天柱”江南电竞人形机械人再进化Get 新技术

发布时间:2023-09-27 09:45:34  点击量:
更多

  比拟 X 平台(前身为 Twitter) 流量下滑的失意,马斯克旗下的人形呆板人 Optimus(擎天柱)风生水起。

  就正在方才过去的周日,Tesla Optimus 官方号正在 X 平台上分享了一段精美的视频,浮现了人形呆板人擎天柱实践各样劳动,征求了做瑜伽和自愿按色彩对方块实行分类。

  譬如,正在视频中,这款呆板人可能依据肖似人类的速率轻松分类物体的才华,识别物品的区别色彩。再者,当人类干扰劳动添补繁杂性时,擎天柱或许火速顺应这种变更并告成完结劳动。

  然后呆板人也能做出需求单腿站立并舒展手脚的瑜伽式样,浮现其平均性和灵动性。

  凭据视频,擎天柱现正在或许自我校准它的手臂和腿。它还可能运用视觉和合节位子编码器正在空间中无误定位其肢体。这一性能使呆板人或许更高效、更凿凿地完结物理劳动。这种秤谌的自我校准也许是开创性的,加倍是正在需求对细节谨幼慎微的处境中。

  值得贯注的是,视频显示 TeslaBot 现正在运转与 Tesla 汽车雷同的端到端神经汇集上,该汇集可能管束视频输入并天生限造输出,基于此,这种锻练技巧可能使呆板人或许以极高的精度实践劳动。

  毫无疑义,这一视频的公布代表了人形呆板人得到了又一庞大冲破,对此,马斯克也运用了「Progress」(发展)做了评判。

  截至目前,Tesla Optimus 只是粗略地分享了这一视频,并没有进一步吐露其行使到的工夫细节,可谓是吊足了呆板人酷爱者的胃口。

  对此,也有良多人揣测,这段视频是不是用CGI(揣度机天生图像)合成的,但是,NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan正在 X 上()分享了他对 Tesla Optimus 浮现的视频实行逆向工程之后,本身对该工夫栈房的剖判,最终得出一个结论:

  波士顿动力公司的 Atlas 唯有粗略的抓手。从深入来看,擎天柱 那双精美的五指手正在常日职业中将会阐扬得特别杰出。

  接下来,咱们可以看看其逆向工程取得的少少涌现。对此,Jim Fan 也夸大道,没有黑幕音讯,这里唯有他本身通过对视频的剖判与干系工夫的解析。

  开始,Tesla Optimus 人形呆板人流利的手部行动险些可能必然是通过人类操作员的效仿进修(活动克隆)锻练出来的。另一种技巧是模仿深化进修,但这平淡会导致行动颤栗和手部式样不天然。

  基于此,Jim Fan 剖释道,此中起码有四种技巧可能收罗“人类演示”:

  Jim Fan 以为这是特斯拉团队最有也许采用的技巧。开源实例:ALOHA是斯坦福人为智能测验室()推出的一款低本钱双臂刻板臂和长途操作编造。它能完成格表无误、精美的行动,比方将 AAA 电池装入遥控器或操作隐形眼镜。

  运用好莱坞影戏中运用的 MoCap 编造来逮捕手部合节的渺幼行动。Tesla Optimus 采用了与人类相仿的五指手,这是一个很好的策画决计,可能完成直接映照,由此与人类操作员之间不存正在的确差异。

  比方,演示者可能戴上 CyberGlove(),捉住桌子上的方块(如视频所示)。CyberGlove 将及时逮捕运动信号和触觉反应江南电竞,并将其从新定向到 Optimus 上。

  另一种完成 MoCap 的技巧是揣度机视觉。英伟达™(NVIDIA®)公司的 DexPilot 可完成无标识、无需戴手套的数据收罗。人类操作员只需徒手即可完结劳动。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™(NVIDIA®)Titan XP GPU(2019 年参加运用)将像素转化为无误的运动信号,供呆板人进修瑜伽。

  将锻练室酿成 VR 游戏,让人类 饰演 擎天柱。运用原生 VR 限造器或 CyberGlove 限造虚拟的 Optimus双手。这拥有可扩展的长途数据收罗上风——宇宙各地的注脚者无需亲临现场也能做出孝敬。

  VR 演示工夫展现正在 iGibson 家庭呆板人模仿器等讨论项目中,Jim Fan 正在斯坦福大学参加了这项安置:。

  以上四种工夫并不互相排斥。Optimus 可能凭据区其它利弊组合运用它们。

  其次,Tesla Optimus 采用了神经汇集构造。Optimus 是端到端的锻练:视频输入,行动输出。对此江南电竞,Jim Fan 示意,“我很确定它是由一个多模态转换器完成的”,此中蕴涵以下组件:

  图像:高效 ViT 的某种变体,或者只是一个旧的 ResNet/EfficientNet 主干网 (。方块拾取和就寝演示不需求繁杂的视觉工夫。图像主干的空间特质图可能很容易地标识化。

  视频:两种技巧。要么将视频扁平化为一系列图像并独立天生 token,要么运用视频级令牌天生器。高效管束视频像素的技巧有良多。你不必然需求 Transformer主干,比方 SlowFast Network()和 RubiksNet(,我正在 ECCV 2020 上的论文,高效的 CUDA 移位原语)。

  讲话:尚不了然 Optimus 是否有讲话提示。假如有,就需求有一种技巧将讲话表征 交融 到感知中。FiLM 是一个格表轻量级的神经汇集模块,可能完成这一宗旨()江南电竞江南电竞。

  行动标识化:Optimus 需求将连气儿运动信号转换为离散标识,以便自回归 Transformer 职业。有以下几种技巧:

  - 直接对每个手合节限造的连气儿值实行分类江南电竞。[0,0.01) - token #0,[0.01,0.02) - token #1,等等。这种技巧粗略通晓瑜伽,但因为序列长度较长,服从也许不高。

  - 合节运动相互高度依赖,这意味着它们占领了一个低维的 状况空间。将 VQVAE 运用于运动数据,可得到长度更短的压缩 Token 集。

  将上述一面组合正在一道,咱们就有了一个 Transformer 限造器,它花消视频token(可采用讲话调造),并一步一步地输出行动 token。表格中的下一帧画面会反应给 Transformer,如此它就懂得了本身行动的结果。如此就具备了演示中浮现的自我更正才华。

  结尾,Jim Fan示意,“硬件质地给我留下了深入印象。行动流利,排场大方。正如我上面提到的,紧跟人类形状是一个伟大的决计,如此正在效仿人类方面就没有差异了。”

  实在回看“特斯拉擎天柱”的出世,它初次是正在 2021 年特斯拉首个“人为智能日”(AI Day)上被马斯克揭晓,该项目旨正在造造一种通用仿人呆板人,或许实践人类不肯实践的损害、反复或贫乏劳动。该呆板人策画得既友情又安详,需要时人类可能超越或校服它。

  开初,表界并没有对这款“擎天柱”呆板人有过太多的合怀。但是,近一年来,跟着 AIGC 运用的大火,越来越多的人插手了人形呆板人创业的海潮,征求稚晖君插手创业公司「智元呆板人(AGIBot)」半年之后便带来了首款智元具身智能呆板人远征 A1 进而插手战局。

  相较之下,背靠特斯拉,“特斯拉擎天柱”呆板人最吸引人的地方之一是它与特斯拉全自愿驾驶(FSD)工夫的亲昵合连。Optimus 呆板人和特斯拉的 FSD 依赖于雷同的人为智能编造和硬件,完成了无缝集成,并充裕行使了特斯拉正在神经汇集和自愿编造方面的现有专业学问。

  只但是,有些缺憾的是,目前还没相合于 TeslaBot 何时企图好参加临盆或贸易运用的讯息。

  这真是个好东西。发展神速。我有一个挑剔的地方,那即是它的行动有少少缺陷,实在大大都人也会如此做,譬喻臀部的运动会牵涉得手臂的运动。除非它不具备像人类那样转移上背部的才华江南电竞,不然没有需要向后转移臀部瑜伽。我提倡再添补一个合节,除非它能正在没相合节的境况下完结预订的职业。从物理学的角度来看,因为贫乏某些合节,以及正在人类演示无效行动的视频中承担锻练,它的良多行动正在刻板上都是无效的。这并不是什么大题目,除非无功能学形成的磨损会影响它的寿命。

  当呆板人只是任意地做瑜伽时,每个体都正在合怀它的分类才华,这是一项极其清贫的重量分拨和微调度劳动。直立平均开始就格表清贫,而行走对呆板人来说也是一个寻事。能做到这一点真是令人咋舌做瑜伽分类货品特斯拉“擎天柱”江南电竞人形机械人再进化Get 新技术

地址:​江南电竞海南省海口市玉沙路58号  电话:0898-66889888 手机:13988889999
Copyright © 2012-2023 江南电竞·(中国)官方网站IOS/安卓通用版/手机APP下载 版权所有 ICP备案编:琼ICP备88889999号