绥化15.24钢绞线每米重量 香港大学与字节超过联手:教机器东谈主"看"东谈主类动作来学习新技巧

发布日期:2026-07-02 点击次数:82
钢绞线

这项由香港大学HKU-MMLab与字节超过Seed团队联开展的盘问,以预印本神志于2026年6月26日发布在arXiv平台,论文编号为arXiv:2606.28133。有敬爱敬爱入了解的读者不错通过该编号在arXiv上查询好意思满论文。

盘问的中枢问题其实很逼近咱们的生存直观:既然东谈主类作念务、整理厨房的遍地可见,能不成让机器东谈主平直"看"这些来学习干活?这个想法听起来很诱东谈主,但收尾起来却藏着个庞杂的陷坑——盘问团队花了无数元气心灵来找到这个陷坑,并想出了个好意思妙的办法绕开它。

、机器东谈主学徒的苦闷:为什么平直"抄"东谈主类动作行欠亨

先推己及人感受下这个挑战。假定你是个刚入职的厨房学徒,师父让你通过不雅看前辈切菜的来学习刀工。里的前辈用的是业大刀,而你手边唯有把普通生果刀。即便你把前辈每个手腕扭转的角度都记载下来,照着作念的时候也可能切得团糟——因为刀具花样不同,适大刀的捏法和角度对生果刀来说是另回事。

双臂机器东谈主和东谈主类之间的关连恰是如斯。机器东谈主的终局实行器是两个夹爪,就像两把平行的夹子;东谈主类的手则有五根手指,不错灵敏地捏、捏、钩、绕。当咱们用电脑视觉期间从东谈主类操作中索求手腕的"姿态"——包括位置和朝向——再让机器东谈主照着作念时,问题就出现了:东谈主类手腕扭转定角度是为了让五根手指配着收拢物品,但机器东谈主的夹爪压根不需要阿谁角度,强行师法只会让夹爪对着造作的向夹空气。

厄运的是,从里索求东谈主类手腕的旋转角度自己就不准确。筹画机视觉算法估算手腕朝向时会产生流毒,就像用尺子量个阻挡惶恐的物体,每次读数都略有不同。把这些带噪声的旋转数据喂给机器东谈主,成果等于机器东谈主作念非凡怪的诬蔑动作,莫得收拢东谈主类操作的本体。

盘问团队在实验中平直考证了这点:把从东谈主类索求的好意思满六解放度腕部动作(位置加旋转)输入机器东谈主时,机器东谈主会作念出变形、偏离揣摸打算的奇怪姿势,压根法完成任务。

二、关键知悉:扔掉旋转,保留平移

盘问团队在反复念念及第收拢了个关键事实:岂论是东谈主类如故机器东谈主,在操作物体时,手腕(或夹爪)需要挪动到哪个位置,这件事是度致的。开微波炉门,手要先上前伸出去、斡旋门把手;擦微波炉台面,手要从左往右横向挪动。这种"手在空间中如何挪动"的轨迹,对于东谈主类和机器东谈主来说本体上是样的——都需要从A点挪动到B点。

至于手到了阿谁位置之后,手腕应该朝哪个向、指头应该若何蜿蜒,那才是东谈主类和机器东谈主简直不样的地。

由此,盘问团队建议了他们称之为"桥接动作"的暗意法:只记载手腕(或夹爪)在三维空间中的平移轨迹,丢掉旋转信息。具体来说,他们把手腕辞寰球坐标系中的位置,投影到机器东谈主头部录像头所不雅察到的画面坐标系里,然跋文录手腕在接下来若干时刻步内,相对于现时位置的位移变化。

用生存化的式雄厚:这就像用GPS航只记载"从现时位置向北走50米,再向东走30米",而不去管你走路时两只脚的姿势或躯壳的朝向。航温雅的仅仅你的轨迹,不温雅你的步态。相通,这个"桥接动作"只温雅手腕在空间中走了什么旅途,而不温雅手腕自身如何旋转。

这个想象有三个平直平允。其,平移信息比旋转信息容易从中准确索求,噪声小得多。其二,平移轨迹对东谈主类和机器东谈主来说具有相易的物理含义——都是在边幅终局实行器在空间中的畅通旅途。其三,不同夹持机构在相易任务中如实走相似的平移轨迹,这是动作本体的共方位。

三、搭建"翻译桥梁":让东谈主类数据和机器东谈主数据在同个模子里共存

光有这个桥接动作的倡导还不够。东谈主类的数据等闲唯有平移信息(因为旋转信息不可靠),而机器东谈主要现实畅通则需要好意思满的六解放度教唆(三个位置重量加三个旋转重量),还需要松手夹爪开的残害信号。若何让个统的模子同期处理这些着手不同、花样不同的数据,就成了二个需要治理的工程问题。

盘问团队构建了个基于大型视觉-话语-动作模子的系统,其架构念念路鉴戒自业内有名的π?模子。这个系统的责任式不错用餐厅后厨的互助来雄厚:有个"大厨"稳当雄厚食材(视觉信息和话语教唆),把雄厚成果传递给"炒锅师父"(动作生成模块),由后者现实输出具体的操作动作。

为了处理不同数据着手的动作花样各异,盘问团队想象了种"交错动作序列"的暗意式。每个时刻步的动作被分红三段步骤陈设:段是三维平移的桥接信息,二段是好意思满的六解放度终局实行器动作,三段是夹爪开信号。对于东谈主类数据,二段和三段可能缺失;对于机器东谈主数据,三段都存在。通过在重眼光机制中诞生掩码(不错雄厚为给某些内容贴上"请忽略"的标签)绥化15.24钢绞线每米重量,模子在处理不同着手数据时能够自动跳过缺失的部分,不会因为数据不好意思满而出错。

这种想象的妙处在于,模子在学习东谈主类数据时注于雄厚三维平移轨迹所蕴含的操作意图,而在学习机器东谈主数据时则把这个意图与现实的机器东谈主松手教唆关联起来。三维平移信息排在序列的前边,是经过念念熟虑的:当模子生成六解放度机器东谈主动作时,它不错"回头看"仍是生成的平移信息,哄骗从东谈主类数据中学到的畅陈诉识来指机器东谈主动作的生成。

在老师机器东谈主数据时,盘问团队还禁受了个关键的数据增强战略:立时地在老师揣摸打算中加入平移信息,或者平直用平移信息替换六解放度信息行为老师揣摸打算。这个操作将就模子开发桥接动作和可实行机器东谈主动作之间的明确有筹商,就像反复熟练将汉文翻译成英文,才能在需要时自如地进行翻译。

四、三阶段老师:从海量东谈主类数据到机器东谈主技巧

通盘这个词老师经由分三个阶段进,逻辑明晰,像是个从平日到的学习旅途。

阶段是在大领域东谈主类动作数据上进行预老师。盘问团队网罗了约600小时的东谈主类手部操作数据:其中约70小时来自公开的EgoDex数据集(个门收录东谈主称视角手部操作的数据集),约500小时是外包蚁合的解放神志务操作,还有约45小时是在实验室内用业VR开发蚁合的数据。这阶段只老师模子揣度三维平移的桥接动作,不触及任何机器东谈主松手教唆。办法是让模子累积丰富的操作学问:手在空间中如何畅通才算是在"开微波炉",手在空间中如何畅通才算是在"擦桌子"。

二阶段是东谈主类数据与机器东谈主数据的联老师。盘问团队加入了约72小时的通用机器东谈主抓取-摒弃操作数据(掩饰100多种物品)以及每个任务约3小时的任务属实验室东谈主类操作数据。这阶段三种蚀本函数(平移、六解放度、夹爪)沿途激活,模子启程点学习如何把操作意图转机为现实的机器东谈主松手信号。

三阶段是极少机器东谈主数据的精调。盘问团队为每个任务蚁合了100条机器东谈主遥操作轨迹,但在精调时每个任务只使用其中10条,门盘问预老师对数据率的提高果。

五、实验:15个任务,确实机器东谈主,令东谈主服气的成果

盘问团队在现实机器东谈主平台上进行了系统评测。使用的是ByteMini双臂挪动操作机器东谈主,配备两条7解放度机械臂、两个平行夹爪,以及安设在头部和两个腕部的RGB-D录像头。评测任务涵盖15项不同难度的操作任务,按操作对象分为四组。

微波炉有筹商任务共6项,钢绞线包括开和关闭微波炉门、从微波炉中取出碗和放入碗、以及从左到右和从右到左擦抹微波炉顶面。抽屉有筹商任务共2项:开和关闭抽屉。马克杯与杯子有筹商任务共4项:将左侧/右侧马克杯挂到杯架上,以及将左侧/右侧杯子叠放到另个杯子上。其他任务共3项:将吸管插入杯中、从烤面包机取出吐司放到盘子里、以及拔出充电器。

每个任务在两种不同的场景嘱托下各测试4次,计8次历练。评分圭表分两种:奏效能(任务是否完成)和程度分(即便莫得奏效,作念到哪步了)。程度分的想象让评测加邃密——哪怕机器东谈主莫得开微波炉门,只须它奏效够到了门把手,也能获取相应的分数。

成果先考证了桥接动作的要。仅用通用抓取-摒弃机器东谈主数据老师的模子在15项任务上推崇差,合座程度分约为0.21,奏效能低。引入东谈主类数据并使用桥接动作联老师后,合座程度分跃升至0.45,奏效能达到0.22。在此基础上加入大领域东谈主类预老师(阶段),程度分进步提高至0.60,奏效能达到0.38。再加入每任务10条机器东谈主精调数据后,合座程度分达到0.72,奏效能达到0.60。

与此同期,盘问团队也平直对比了使用好意思满六解放度东谈主类腕部动作(包含旋转)与只使用三维平移的桥接动作。在联老师中,六解放度东谈主类动作对应的合座程度分仅有34.67,奏效能12.50;而三维平移的桥接动作对应的合座程度分达到44.58,奏效能22.50。定不雅察相通明晰:使用六解放度东谈主类动作时,机器东谈主频频产生诬蔑偏离的奇怪姿势;使用桥接动作时,机器东谈主的步履当然领悟,终局实行器能准确指向操作揣摸打算。

六、入探究:预老师、数据率与上界分析

盘问团队还作念了几组补充实验,回复了几个有价值的追问。

对于东谈主类预老师如何提高极少机器东谈主数据的哄骗率:不经过东谈主类预老师平直用10条机器东谈主数据精调,合座程度分为53.79,奏效能35.83;经过东谈主类预老师再精调,合座程度分提高至71.21,奏效能达到55.00。也等于说,即便机器东谈主我方从来莫得"看过"不错现实实行的动作教唆(预老师阶段唯有平移信息),光是学习了无数东谈主类操作的平移轨迹,就仍是为后续快速掌捏好意思满机器东谈主技巧下了坚实基础。

对于老师蚀本的分析:盘问团队比拟了有东谈主类预老师时,联老师阶段三种蚀本函数(平移、六解放度、夹爪)的经管弧线。道理道理的是,尽管东谈主类预老师只化了平移蚀本,但从东谈主类预老师驱动化的模子在联老师时,六解放度和夹爪蚀本都比从启程点老师经管得快、低。这评释平挪动作和六解放度动作在化揣摸打算上具有的相似——学好了平移,在学好意思满动作时渔人之利。

对于桥接动作自身的能上界:盘问团队作念了个念念想实验,把任务属的机器东谈主遥操作数据(每任务100条)也调遣成只包含平移信息的花样,用与东谈主类数据相易的老师式处理。这特地于摈弃了视觉各异(机器东谈主有腕部录像头,数据好意思满)和动作噪声(机器东谈主数据比手势揣摸得多)。成果清晰,这种"期许情况"下合座程度分可达73.54,奏效能55.83,权贵于使用确实东谈主类数据的成果。这评释桥接动作自己行为学问迁徙的引子是有的,现时能的瓶颈主要来自视觉各异和东谈主类动作数据的固有噪声,跟着蚁合期间和视觉对王人法的改变,还有特地大的提高空间。

七、局限与失败案例:解释靠近翻译的代价

盘问团队莫得规避这套法的局限。典型的失败案例出目下"将吸管插入杯中"和"开抽屉"这两个任务上。前者需要塞收拢根狭窄的吸管,后者需要在捏住把手后进行特定向的腕部扭转才能开发有的拉力。这两个任务的失败正值都指向同个根源:旋转信息的缺失。

就像前边餐厅学徒的比方——记载旅途不错学会走到何处,但如若接下来需要作念个精准的旋动掸作(比如拧开瓶盖),光靠旅途信息就不够了。盘问团队在论断中也明确指出,在将来责任中引入极少可靠的旋转信息是个有价值的向,揣摸打算是在保持大领域东谈主类数据可用的同期,补充那些如实需要旋转信息的操作技巧。

此外,机器东谈主在联老师后对拾取薄片状物体的智力有所下跌,盘问团队将此归因于视觉各异(东谈主类和机器东谈主看到的画面角度不同)以及东谈主类动作数据中不可避的噪声累积。

说到底,这项盘问作念的事情不错用句话概述:找到了东谈主类操作学问和机器东谈主松手教唆之间简直共通的那部分——手在空间中如何挪动——并以此为桥梁,让海量低价的东谈主类操作简直能够转机为机器东谈主的实用技巧。这套法不依赖欢叫的机器东谈主演示数据,也不条件治理手部旋转揣摸不准确的贫窭,而是干脆把那部分不可靠的信息丢掉,注于可靠的、有道理的信息。

对于普通东谈主来说,这项盘问意味着将来的用机器东谈主可能和会过不雅看无数普通务来习得技巧,而不需要为每个新任务单进行欢叫的机器东谈主设施开发。虽然,从实验室演示到简直的用场景还有特地长的路要走,但这个朝上的每步进展都让阿谁揣摸打算变得加明晰可见。

有敬爱敬爱入了解期间细节的读者,不错通过arXiv编号2606.28133查阅好意思满论文。

Q&A

Q1:桥接动作(Bridging Action)到底是什么道理,和普通机器东谈主动作有什么分袂?

A:桥接动作是盘问团队建议的种简化的动作暗意式,它只记载手腕在三维空间中的位置挪动轨迹,去掉了手腕旋转向的信息。普通机器东谈主动作包含六个维度(三个位置加三个旋转),而桥接动作只保留三个位置维度。这么作念的平允是东谈主类和机器东谈主在"手往何处挪动"这件事上是致的,而在"手朝哪个向转"这件事上由于夹持机构不同而存在压根各异,去掉旋转信息不错避把造作的旋转民风从东谈主类数据迁徙给机器东谈主。

Q2:为什么从里平直学习东谈主类动作之前没东谈主这么作念过?

A:现实上仍是有好多盘问在尝试从东谈主类学习机器东谈主技巧,但主流作念法是把东谈主类手腕的好意思满姿态(包括旋转)都索求出来平直让机器东谈主师法。这项盘问的新颖之处在于指出了旋转信息的两个压根问题:是中索求旋转信息自己就不准确,噪声大;二是东谈主类旋转手腕的原因(配手指抓物)和机器东谈主夹爪的责任式不同,平直师法旋转反而无益。去掉旋转注于平移,这个看似"闲适"的决定反而带来了好的果。

Q3:这套法老师出来的机器东谈主能完成哪些任务,奏效能大略是若干?

A:盘问团队在15个双臂操作任务上进行了评测,包括开关微波炉门、从微波炉存取碗、擦抹台面、开关抽屉、挂杯子、叠杯子、插吸管、取吐司和拔充电器。在三阶段好意思满老师(大领域东谈主类预老师加联老师再加每任务10条机器东谈主精调数据)后,合座平均奏效能约为60,任务程度分约为72。不同任务各异较大,微波炉开门等任务奏效能可达,而插吸管等需要精准旋转的任务奏效能较低,约为20。手机号码:15222026333相关词条:不锈钢保温     塑料管材设备     预应力钢绞线    玻璃棉板厂家    pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》绥化15.24钢绞线每米重量,以此来变相勒索商家索要赔偿的违法恶意行为。

热点资讯

推荐资讯