新闻资讯
你的位置: 首页 > 新闻资讯

做瑜伽分类货物特斯拉“擎天柱”人形呆板人再进化Get 新技江南电竞术

发布时间:2023-09-26 00:49:31  点击量:
更多

  比拟 X 平台(前身为 Twitter) 流量下滑的失意,马斯克旗下的人形呆板人 Optimus(擎天柱)风生水起。

  就正在刚才过去的周日,Tesla Optimus 官方号正在 X 平台上分享了一段精粹的视频,闪现了人形呆板人擎天柱施行各样使命,囊括了做瑜伽和主动按色彩对方块举行分类。

  譬如,正在视频中,这款呆板人可能依附犹如人类的速率轻松分类物体的才力,识别物品的差异色彩。再者,当人类干扰使命增添繁复性时,擎天柱可能疾速适当这种改变并凯旋告终使命。

  然后呆板人也能做出需求单腿站立并舒展手脚的瑜伽样子,闪现其均衡性和敏捷性江南电竞。

  遵照视频,擎天柱现正在可能自我校准它的手臂和腿。它还可能运用视觉和闭节职位编码器正在空间中准确定位其肢体。这一功用使呆板人可能更高效、更确实地告终物理使命。这种水准的自我校准不妨是开创性的,更加是正在需求对细节谨幼慎微的境况中。

  值适宜心的是,视频显示 TeslaBot 现正在运转与 Tesla 汽车沟通的端到端神经收集上,该收集可能处罚视频输入并天生左右输出,基于此,这种操练格式可能使呆板人可能以极高的精度施行使命。

  毫无疑难,这一视频的公布代表了人形呆板人得到了又一巨大冲破,对此,马斯克也运用了「Progress」(提高)做了评议。

  截至目前,Tesla Optimus 只是纯粹地分享了这一视频,并没有进一步揭破其使用到的技能细节,可谓是吊足了呆板人嗜好者的胃口。

  对此,也有许多人揣摩,这段视频是不是用 CGI(策动机天生图像)合成的江南电竞,只是,NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan 正在 X 上()分享了他对 Tesla Optimus 闪现的视频举行逆向工程之后,我方对该技能客栈的明白,最终得出一个结论:

  波士顿动力公司的 Atlas 只要纯粹的抓手。从长久来看,擎天柱 那双轻巧的五指手正在平时处事中将会涌现得越发卓绝。

  接下来,咱们可能看看其逆向工程取得的极少涌现。对此,Jim Fan 也夸大道,没有底细动静,这里只要他我方通过对视频的明白与相干技能的分析。

  最初,Tesla Optimus 人形呆板人贯通的手部举措简直可能坚信是通过人类操作员的师法研习(行动克隆)操练出来的。另一种格式是模仿加强研习,但这平淡会导致举措颤栗和手部样子不天然。

  基于此,Jim Fan 了解道,个中起码有四种格式可能搜罗“人类演示”:

  定造长途操作体系--Jim Fan 以为这是特斯拉团队最有不妨采用的格式。开源实例:ALOHA是斯坦福人为智能试验室()推出的一款低本钱双臂呆滞臂和长途操作体系。它能竣工至极准确、轻巧的举措,比方将 AAA 电池装入遥控器或操作隐形眼镜。

  举措搜捕(MoCap):操纵好莱坞影戏中运用的 MoCap 体系来搜捕手部闭节的轻细举措。Tesla Optimus 采用了与人类相仿的五指手,这是一个很好的安排决计,可能竣工直接映照,由此与人类操作员之间不存正在简直差异。

  比方,演示者可能戴上 CyberGlove(),捉住桌子上的方块(如视频所示)。CyberGlove 将及时搜捕运动信号和触觉反应江南电竞,并将其从头定向到 Optimus 上。

  戴手套和信号笔会很愚笨。另一种竣工 MoCap 的格式是策动机视觉。英伟达™(NVIDIA®)公司的 DexPilot 可竣工无符号、无需戴手套的数据搜罗。人类操作员只需徒手即可告终使命。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™(NVIDIA®)Titan XP GPU(2019 年加入运用)将像素转化为准确的运动信号瑜伽,供呆板人研习。

  VR 头显:将操练室形成 VR 游戏,让人类 饰演 擎天柱。运用原生 VR 左右器或 CyberGlove 左右虚拟的 Optimus 双手。这拥有可扩展的长途数据搜罗上风——天下各地的注解者无需亲临现场也能做出功绩。

  VR 演示技能展现正在 iGibson 家庭呆板人模仿器等研商项目中,Jim Fan 正在斯坦福大学加入了这项规划:。

  以上四种技能并不彼此排斥。Optimus 可能遵照差异的利弊组合运用它们江南电竞。

  其次,Tesla Optimus 采用了神经收集组织。Optimus 是端到端的操练:视频输入,举措输出江南电竞。对此,Jim Fan 吐露,“我很确定它是由一个多模态转换器竣工的”,个中包括以下组件:

  图像:高效 ViT 的某种变体,或者只是一个旧的 ResNet/EfficientNet 主干网 (。方块拾取和安放演示不需求繁复的视觉技能。图像主干的空间特性图可能很容易地符号化。

  视频:两种格式。要么将视频扁平化为一系列图像并独立天生 token,要么运用视频级令牌天生器。高效处罚视频像素的格式有许多。你不必然需求 Transformer主干,比方 SlowFast Network()和 RubiksNet(,我正在 ECCV 2020 上的论文,高效的 CUDA 移位原语)。

  讲话:尚不明了 Optimus 是否有讲话提示瑜伽。即使有,就需求有一种格式将讲话表征 调和 到感知中。FiLM 是一个至极轻量级的神经收集模块,可能竣工这一主意()。

  举措符号化:Optimus 需求将连绵运动信号转换为离散符号,以便自回归 Transformer 处事。有以下几种格式:

  - 直接对每个手闭节左右的连绵值举行分类。[0,0.01) ->

  token #0,[0.01,0.02) ->

  token #1,等等。这种格式纯粹懂得,但因为序列长度较长,服从不妨不高。

  - 闭节运动互相高度依赖,这意味着它们吞没了一个低维的 形态空间。将 VQVAE 操纵于运动数据,可获取长度更短的压缩 Token 集。

  将上述部门组合正在一块,咱们就有了一个 Transformer 左右器,它打发视频token(可选取讲话调造),并一步一步地输出举措 token。表格中的下一帧画面会反应给 Transformer,如此它就了然了我方举措的结果。如此就具备了演示中闪现的自我改正才力。

  最终,Jim Fan 吐露瑜伽,“硬件质地给我留下了深远印象。举措贯通,华丽大方。正如我上面提到的,紧跟人类形式是一个伟大的决计,如此正在师法人类方面就没有差异了。”

  本来回看“特斯拉擎天柱”的出世,它初次是正在 2021 年特斯拉首个“人为智能日”(AI Day)上被马斯克揭晓,该项目旨正在成立一种通用仿人呆板人,可能施行人类不肯施行的损害、反复或贫乏使命。该呆板人安排得既友谊又安适,需要时人类可能超越或号衣它。

  早先,表界并没有对这款“擎天柱”呆板人有过太多的闭切。只是,近一年来,跟着 AIGC 操纵的大火,越来越多的人参预了人形呆板人创业的海潮,囊括稚晖君参预创业公司「智元呆板人(AGIBot)」半年之后便带来了首款智元具身智能呆板人远征 A1 进而参预战局。

  相较之下,背靠特斯拉,“特斯拉擎天柱”呆板人最吸引人的地方之一是它与特斯拉全主动驾驶(FSD)技能的亲密闭连。Optimus 呆板人和特斯拉的 FSD 依赖于沟通的人为智能体系和硬件,竣工了无缝集成,并富裕欺骗了特斯拉正在神经收集和主动体系方面的现有专业学问瑜伽。

  只只是,有些缺憾的是,目前还没相闭于 TeslaBot 何时计划好加入出产或贸易运用的新闻。

  这真是个好东西。提高神速。我有一个挑剔的地方,那便是它的举措有极少缺陷,本来大大都人也会如此做,比方臀部的运动会牵连得手臂的运动。除非它不具备像人类那样挪动上背部的才力,不然没有需要向后挪动臀部。我倡导再增添一个闭节,除非它能正在没相闭节的情景下告终预订的处事。从物理学的角度来看,因为短少某些闭节,以及正在人类演示无效举措的视频中接纳操练,它的许多举措正在呆滞上都是无效的。这并不是什么大题目,除非无功用学形成的磨损会影响它的寿命。

  当呆板人只是任意地做瑜伽时,每部分都正在闭切它的分类才力,这是一项极其贫窭的重量分派和微调度使命。直立均衡最初就至极贫窭,而行走对呆板人来说也是一个挑拨。能做到这一点真是令人感叹做瑜伽分类货物特斯拉“擎天柱”人形呆板人再进化Get 新技江南电竞术

地址:​江南电竞海南省海口市玉沙路58号  电话:0898-66889888 手机:13988889999
Copyright © 2012-2023 江南电竞·(中国)官方网站IOS/安卓通用版/手机APP下载 版权所有 ICP备案编:琼ICP备88889999号