Navigation menu

新闻中心

没有什么可以削减互联网的,机器人终于“出来

在电影和电视作品中,我们看到了许多机器人失去控制的场景。关于响应计划的一些笑话早已熟悉:断开网络,拔下电源,重新启动三对一,将其返回烤箱,然后单击重建。但是现在,此过程可能无法正常工作。如今,Google DeepMind在-aparato上推出了一种新的机器人控制模型-Gemini Robotics。这个巨大的模型可以在本地运行到机器人,整合视觉识别,了解动作的语言和实现。它最大的亮点是,即使它完全离线,它也会正确理解该人的指示并正确地完成活动。与Chatgpt和Gemini等大型模型相比,在聊天,写作和回答问题方面非常出色,Gemini Robotics On Device是具有真实“大脑”的机器人,因此它也可以具有类似的理解和实现。这本质上是主要的VLA模型,专门为两-ar设计医学机器人。顾名思义,视觉 +语言 +动作。这三个的组合是观察,理解和移动,这是基本质量。例如,您可以提出一个机器人请求:“请折叠这件衣服,将其放在背包中,我会把它放在背包中。”过去,必要的写作和衰减计划。现在,双子座上的Aparato可以直接理解这句话的含义,然后逐步进行。扩展全文 因为即使连接到Internet,您也可以运行,所以为什么必须尝试在本地运行?答案不过是速度和稳定性。 如果机器人需要将数据传递到云中,请等待服务器在返回结果之前进行研究,这不可避免地导致延迟。在医疗操作,灾难救援,工厂自动化和其他任务中,延迟延迟空间几乎为零。而且,实际上,许多地方的网络条件甚至没有网络也很差。 实际上,允许机器人在现实生活中处理复杂而动态的活动始终是AI领域中最难的骨头之一。 从公共视频来看,双子座的on evice具有各种常见情况,例如折叠衣服,拉链,抓住独特的生物并将其放在指定的位置。所有这些都是由于其研究机制。 ▲总体上强烈能力 HIT从一开始就不需要长时间的培训,而开发人员只需要提供50至100个Manu -Manu示例即可。如果您亲自控制机器人的折叠衣服,则该模型可以迅速学习和独立工作。 Gemini Robotics On Device仍在本地发布其他替代性运行,以更具挑战性的共享活动或复杂的多步骤说明。 而且,它非常适应。 尽管Gemini Robotics Ondevice最初是在Google自发的Aloha双臂机器人平台上进行的,但它也可以与Frank一起牢固地运行。tation。 FR3工业机器人手臂。 即使是具有不同结构的类人类机器人的Apollo也可以愚蠢地运行,并且相同的一般模型也习惯于通过少量研究来完全不同的身体形状。 理想情况下,开发人员不必防止每个新机器人的AI,他们只需要一次训练通用模型,然后通过轻量级转移研究部署到其他机器人平台。预计“模型和多功能”功能将加速机器人技术的普及和应用。 当然,目标是目标,它们仍然存在缺点。 随着情报和自主权的提高,安全要求也会提高。尽管Gemini On-Aparato可以执行操作,但确定您提供的任务是否安全是不合理的。因此,应该为模型安装“安全螺栓”。 DeepMind提供的建议可以开发人员访问Google Gemini Live API接口到该模型,这允许如果命令是合理的,则首先确定该命令是否完成;同时,将物理限制设置为动作水平,例如强度,角度和速度以防止事故。 此外,仍然还有改善多步逻辑模型计划功能的空间。 当前,诸如制作三明治和需要逻辑安排的桌面台式机之类的操作不在其舒适区。它与基于Gemini 2.0架构相关联。将来升级到2.5后,可以填补这一部分功能。 另一个现实的挑战是数据。 尽管仅需十二个示例即可开始,但完美的演示是当真实的人真正控制机器人而不是VirtualKinwa时收集的真实数据。这种类型的数据培训的效果更快,更准确,更稳定。 ▲技术报告:https://arxiv.org/pdf/2503.20020 根据项目负责人卡罗来纳州范围A,这是Google首次发布完全脱离云的机器人AI模型,也是开发人员根据自己的需求正确正确的版本。 目前,DeepMind打开了Gemini Robotics Ondevice的SDK,并访问了“受信任的测试人员”模型。如果您是从事机器人,工业自动化或智能系统研究开发的开发人员,则可以立即申请测试。 连接应用程序链接:https://docs.google.com/forms/d/1sm5gqccvmwv-kmky3tompvtq-dompvtq-ldfeaftq-d9xqn92jce/edit?ts=67cef986回到SOHU,以查看更多