当前位置:首页 > 汽车 >

今日报丨特斯拉前AI总监Andrej Karpathy访谈:关于埃隆,离职原因,自动驾驶

本 文来源 : 瓦砾村夫

/ 导读 /

10月30日, 麻省理工大学人工智能 专家 ,油管网红播客主 Lex Fridman 放出了又一个三小时的长访谈。这次的访谈对象,是七月中刚 从特斯拉离职的Andrej Karpathy 。


(资料图)

Andrej 是人工智能领域的另一位网红人物。离职前,他担任 特斯拉的人工智能和视觉总监 ,和Ashok,Milan一起,是负责autopilot团队的“三剑客”。

这里剪取访谈的其中约二十分钟作了翻译。Andrej讲述了他 为什么离开特斯拉 ,讲述了他对于埃隆·马斯克,对于自动驾驶,对于擎小柱机器人的看法。本文总字数约6千。

访谈中,Andrej表达了将来可能 重回特斯拉 的想法。对此,老马在推上火速回复: 特斯拉永远欢迎Andrej 。

源:Lex Fridman / 翻译及字幕:瓦砾村夫

关于埃隆·马斯克

Lex:与 埃隆·马斯克 共事,你在机器学习,工程,生活上,以及你自身, 学到了什么 ?

Andrej:我认为,我学到最多的是关于如何有效地 运营组织 ,以及如何 创建高效的组织 ,并与组织中的熵作斗争。

Lex:人类的工程,与熵作斗争?

Andrej:是的,我认为在与组织中的 熵作斗争 方面,埃隆是一位非常高效的战士。

Lex:组织中的熵,到底是什么样子的?

Andrej:它是流程,它是...

Lex:低效率,表现形式为会议,诸如此类的东西?

Andrej:是的, 会议 ,他讨厌会议。他一直告诉人们,如果会议没有用,就不用参加。

我想说,他基本上管理着世界上最大的几家创业公司。 特斯拉 ,SpaceX,是世界上最大的几家创业公司。特斯拉事实上是多家创业公司,我认为这样看比较好。我认为他在这方面极其出色。

是的,他对于 精简流程 有很好的直觉,可以让一切都很 高效 ,最好的零部件是没有零部件,简化,专注,移除障碍,迅速行动,大胆的行动...

所有这些,看起来都很像初创公司的风格,只是规模很大。

Lex:强力驱动简化。

从你的角度看,这可能也适用于设计系统,机器学习,以及其他方面,简化,简化...

你认为,在一家不断发展的公司内部, 保持创业公司文化 的秘诀是什么?你能反思总结一下吗?

Andrej:我确实认为,需要 有人当权 并举着一柄大锤,就像埃隆。他是那个主意的啦啦队,并无情地对其进行追求。

如果没人有足够大的锤子,一切都会变成委员会,公司内部的民主,流程,与利益相关者交谈,决策... 一切都会崩塌

如果有一个大人物,非常聪明,而且有一柄大锤子,事情就会迅速推进。

AK和老马在2021年AI Day上

关于目标设定

Lex:总之, 设定看似不可能的目标 ,你认为 价值 是什么?

就像我们最初的直觉,在埃隆支持下,你所承担的职责。社区最初的直觉可能会说,这是非常困难的。但你还是承担了这个职责,带着一个疯狂的最后期限。

仅从人类工程的角度来看,你有没有看到这种做法的价值?

Andrej:我不会说,设定不可能完成的目标是一个好主意。但我认为,设定非常 雄心勃勃的目标 是一个好主意。

我认为有一种我称之为 “难度的亚线性变化” 的东西。这意味着,10倍问题并不代表着10倍难度。通常,10倍难度的问题,执行难度大概是2或3倍。

因为如果你想把系统提升10%,这需要花费一定的工作量。而如果你想把系统提升10倍,则不需要花费100倍的工作量。这是因为,你从根本上改变了方法。

如果你从这个约束开始,那么有些方法显然是愚蠢的,是行不通的。它会迫使你重新评估。我认为,这是一种非常有趣的处理问题和解决问题的方式。

Lex:但它需要一种奇怪的思维方式。

这就像回到了你的博士时代,你如何判断机器学习领域的哪些想法是可以解决的?

这需要什么, 第一原理的思维方式 ,这是老生常谈了。但它要求我们基本上不理会学术界的意见。通常,科学的学术界不是都会划分可能和不可能的界限吗?而且,不疯魔,就很难突破这个界限。

Andrej:恩,我认为一个很好的例子是,深度学习的革命,在某种意义上。

因为你当时可能正从事于 计算机视觉 。在2012年及之后的深度学习革命期间,你可以把计算机视觉技术栈提升10倍。或者我们可以说,其实这些都没用,我怎样才能把计算机视觉提升10倍呢?

恩,这可能没法通过调整某个HOG特征检测器实现,我需要一种不同的方法。我需要的是 可扩展的方法 ,回到理查德·萨顿的理论,并理解那些我们所经历的痛苦教训的哲学。

然后,实际上我需要一个更可扩展的系统,就像神经网络,原则上是可行的。然后,能有一些坚信这个方向的人,能够实际执行,并达成这个使命,也就是提升10倍的解决方案。

实现自动驾驶的时间表

Lex:你认为 解决自动驾驶问题的时间表 是什么样的?在某种程度上,这仍然是一个开放问题。

Andrej:我认为自动驾驶时间表的困难之处显然在于, 没有人实现过自动驾驶 。

这并不像,你认为建造这座桥梁的时间表是什么样的?好吧,我们以前造过无数的桥,而这座需要这么长时间。

没有人实现过自动驾驶,答案并不清楚。有些部分比其他部分容易得多,这真的 很难预测 。你尽力而为,基于趋势线等等,也基于直觉,但那就是为什么从根本上说,真的很难预测。

Lex:就算对于内部人员来说,也很难...

Andrej:是的,有些事情比想象得更难,有些事情更容易。

Lex:你是不是试图避免作出预测,而埃隆并不回避预测,对吧?而过去,汽车公司的领袖们也并没有回避预测。福特和其他公司曾经做出预测,我们将在2020年,2021年,或某个特定时间解决L4级自动驾驶问题。而现在,这个预言,他们都反悔了。

作为人工智能专职人员,你会不会私下里进行 预测 ?还是说,这样做会妨碍你实际思考问题的能力?

Andrej:嗯,我想我们可以轻松地说,这个问题是 可以解决的 。这是一个很容易做出的预测。

可以解决的,自动驾驶将能运作。是的,只不过的确很难,有些事情比预想的更难,而有些事情更容易。但我感觉,这个问题绝对是可以解决的。感觉至少特斯拉的团队,也就是我在内部看到的,肯定是走在正轨上。

Lex:你如何形成一个强有力的表达,让你能够 对于可解决性做出预测 ?

你是很多人的领袖,你必须说,这实际上是可能的。你如何建立这种直觉?

甚至不一定是自动驾驶,也可以是其他任务,也可以是... 我想知道在你的生活中,你曾从事过哪些困难的任务?我是说,分类,让图像网络达到某种超越人类的水平。

Andrej:是的, 专家级的直觉 ,仅仅直觉,这是信仰。

Lex:只要思考得够久,研究样本数据,就像你说的,自动驾驶。

我的直觉在这方面确实有缺陷,对于可解决性,我没有很好的直觉。它可能很容易,也可能不是,它可能是可解决的。

驾驶任务可能可以被简化为非常简单的问题,这个问题的解决方案可能很简单。而规模化之下,越来越多的汽车能完美地驾驶,可能会让问题更容易解决。

你驾驶过越来越多的车,人们就是这么正确地学会开车的。不是正确的,而是对一个由全自动,半自动和人工驾驶的汽车组成的异构系统来说,某种意义上是一个更理想的方式。这可能会改变一些东西。

话说回来,我也花了大量的时间盯着过马路的行人看,思考人类的情况。我感觉,我们使用眼神接触的方式,能发出非常强烈的信号,而且有一些特定的古怪或边缘行为。

当然,很多发生的车祸死亡事故都与酒后驾驶有关,在行人方面和司机方面都是如此。还有夜间驾驶的问题,所有类似的问题。

我想,自动驾驶潜在的解决方案空间,包括这么多的人为因素,以至于它几乎无法预测。可能会有超级漂亮的优秀解决方案。

Andrej:是的,我想说,套用游戏的类比,这里有“战争迷雾”,但你肯定也能看到改进的前沿。可以通过历史衡量,你已经取得了多少进展。

我认为,例如,至少以我在特斯拉大约五年的时间里所看到的,我加入公司时,它只能在高速公路上保持车道。我记得从帕洛阿尔托到旧金山,需要三到四次的人工干预。任何时候,道路有了任何几何上的变化,或者转弯太猛,它就无法运作。

在五年内,从那个状态发展到一个具有相当能力的系统,并看到在表象之下,实际发生了些什么,以及就数据,算力和其他一切而言,团队现在运营的规模。这些都是 巨大的进步 。

早期的autopilot系统

Lex:这就像,你在爬山,虽然有雾,但你也在不断取得很大的进展。

Andrej:有雾,你正在 取得进展 ,并且你看到接下来的方向是什么。

你在看着剩下的一些挑战,而它们并没有干扰你,它们没有改变你的哲学,而且你没有扭曲自己。你会说,实际上这些就是我们仍然需要做的事情。

Lex:是的,解决问题的根本要素似乎就在那里。从数据引擎,到车上的计算机,再到用于训练的算力,所有这些要素。

为什么选择离开特斯拉?

Lex:在特斯拉,这么多年来,你已经实现了... 你已经实现了很多惊人的突破性的想法和工程工作,所有这些。从数据引擎,到人员方面,所有这一切。你能说说,你 为什么选择离开特斯拉 吗?

Andrej:基本上,正如我所描述的,在这五年里,我认为随着时间的推移,我有点像是把自己转到了一个 管理职位 上。

我的大部分时间都是在开会,和发展组织,做出关于团队的高层次的战略决策,以及团队应该做些什么,等等。这有点像企业高管的角色。

我可以这么做,我认为我做的还不错,但这并 不是我从根本上享受做的事情 。

我记得,当我加入公司时,还没有计算机视觉团队,因为特斯拉刚刚脱离第三方供应商MobilEye的依赖,开始搭建自己的计算机视觉系统。

当我出现的时候,有两个人在训练深度神经网络。他们的训练工作是在脚边的电脑上完成的,一台工作站。

Lex:那是很基本的分类任务。

Andrej:我把团队从萌芽状态,发展到了我认为是相当值得尊敬的一个 深度学习团队 ,一个大规模的计算集群,一个非常好的数据标注团队。

我对团队的情况非常满意,团队变得相当的自主,所以我可以退后一些。

我很高兴,能再次从事更多的技术工作, 重新专注AGI(通用人工智能) 。

Lex:你的心灵探索,进展如何?因为你花了一点时间调整,你做了哪些思考,采到了多少朵思维之花?你是怎么思考的?

人的生命是有限的,你完成了一些不可思议的工作。你是世界上最好的人工智能老师之一,你是最好的...

我不是这个意思,我的意思是,以最好的方式,你是人工智能世界中最好的思考者之一。这是说,通过从头开始搭建一个东西,了解它的基本工作原理,并通过基本的直觉进行研究。

爱因斯坦,费曼都很擅长这个方法,通过一个小例子来研究,来尝试理解它。

显然,目前你已经帮助建立了一支机器学习的团队,很多工程师,以及一个能在现实世界中真正完成任务的系统。

考虑到这一切,你的心灵探索进展如何?

Andrej:嗯,挺难的,因为我显然非常爱这家公司。我爱埃隆,我爱特斯拉,离开是很困难的,我爱这个团队。

但是,我认为,事实上我的确有可能想要 重新审视这个决定 ,也许会在某个时候回来,从事于擎小柱的工作,从事于特斯拉的AGI工作。

我认为,特斯拉会开展一些不可思议的工作。基本上来说,它是一家大规模的机器人公司,拥有大量的内部人才,可以开展非常不可思议的工作。

而我认为,人形机器人将会很了不起。我认为,自动驾驶的交通运输将会很了不起。所有这些都发生于特斯拉。我认为,这是一个非常了不起的组织。作为它的一部分,并帮助它,我很享受这个过程。

是的,因为这些原因,离开是很困难的,因为我爱这家公司。但你知道,我很高兴有可能在未来某个时候, 回到特斯拉开启第二篇章 。

但我当时的感觉,在当前这个阶段,我建立了团队,它能自主运作。我成了一名经理,但我想做更多的技术工作,我想学习东西,我想教授东西。我只是觉得,这是一个很好的时机,可以 改变一些节奏 。

7月离职时,AK说:“我还没有下一步具体的计划,但希望能花更多时间 重新审视 我在人工智能、开源和教育方面技术工作的 长期热情 。”

关于擎小柱机器人

Lex:你提到了 人形机器人 ,你对于擎小柱,特斯拉机器人有什么看法?你认为10年,20年,30年,40年,50年后,工厂和家庭中会有机器人吗?

Andrej:是的,我认为这是一个 非常困难的项目 ,我认为需要一些时间。但还有谁在大规模地生产人形机器人?

我认为,这是一个值得追求的非常好的外形尺寸。因为就像我提到的,这个世界是为人形尺寸设计的。这些东西将能够操作我们的机器,它们将能坐在椅子上,甚至有可能驾驶汽车。

基本上,这个世界是为人类设计的。这就是你想投资的外形尺寸,并且随着时间的推移,使其发挥作用。

我认为,还有另外一派想法,那就是,选择一个问题,并设计机器人来解决它。但实际上,设计机器人,让整个数据引擎和它背后的一切技术都运作起来,实际上是一个非常困难的问题。

寻求通用的接口,是合理的。对于任何一个特定的任务,它们都不是完美的,但它们实际上具有通用性,只要给它英语指示,就能完成一些事情。我认为,在物理世界中寻求一个通用的接口,是非常合理的。

我认为,这是个非常困难的项目,将需要一些时间。但我认为,没有其他公司能够基于这一愿景执行。

我认为它将令人惊奇,它基本上代表着劳动力。如果你认为交通运输是一个巨大的市场,那就试试劳动力市场吧,疯狂。

Lex:嗯,但对我来说,这不仅仅是劳动力,同样令人兴奋的是,社会性的机器人。我们与这些机器人在不同层面上建立的关系。

这就是为什么我看到擎小柱时非常激动。人们因为我的激动而批评我。

但我曾经和很多从事人形双足机器人研究的实验室合作,波士顿动力,Unitary,很多,有很多公司都在从事双足机器人研究。但动作的优雅性,只是整体问题中一个很小的部分。

对我来说,特斯拉研发人形机器人,或双足机器人的两个最激动人心的点,显然在于集成了数据引擎,数据引擎的部分,用于感知,控制和规划的实际智能,和所有这些整合到你提到的车队中的技术,对吧?

然后说到车队,第二点是大规模生产。从企业文化上推动生产一款简单的机器人,能很便宜的进行量产,并把它做好,有经验把它做好,这改变了一切。这和波士顿动力公司的文化和风格完全不同。

顺便说一下,那些机器人,它们运动的方式,特斯拉要想实现流畅的运动,还需要很长一段时间。

但那不是问题的关键所在,关键在于 系统的整体性 ,就像我们谈到的,数据引擎和车队。

这是超级让人激动的,甚至最初的原型也是这样。仅就原型而言,也非常令人惊讶,能在几个月的时间里就完成原型。

AI Day2上展示的机器人demo

Andrej:是的,正如你所提到的,之所以能这么快,是因为从 autopilot系统 中,复制粘贴了大量的技术。

特斯拉在生产人形机器人方面拥有大量的专业技术,让人难以置信。

基本上,有一次埃隆说,我们要开发机器人。然后基本上第二天,所有这些CAD模型就开始出现了,而人们开始讨论供应链和生产制造。人们带着螺丝刀和所有工具出现了,并开始把机器人的身体组装在一起。

我当时就说,哇,所有这些人,特斯拉都有。从根本上说,生产汽车和生产机器人并没有什么区别。

的确如此,不仅仅是对于硬件而言。我们也不要忘记,硬件不仅仅是为了演示,大规模生产这些硬件,是一件完全不同的事情。

而对于软件来说,也是如此。基本上,这款机器人目前认为自己是一辆汽车。

Lex:到了某个时候,它就会有 中年危机 了...

Andrej:它认为自己是一辆汽车。

在早期的一些演示中,实际上我们讨论过,可能在外面的停车场做这些演示,因为所有的计算机视觉都是天然在 室外运作 的,而不是室内。

但所有的操作系统,所有的技术,都是 复制粘贴 得来的。计算机视觉,主要是复制粘贴得来的。我是说,你必须重新训练神经网路,但是对于数据引擎和离线跟踪器的方法来说,以及我们实现占用率追踪器的方法等等,一切都是复制粘贴得来的,你只需要重新训练神经网络。

然后规划和控制,当然,必须要有相当大的改变。但在特斯拉所做的事情中,有大量的复制粘贴操作。

如果你的目标是,让我们生产一百万个人形机器人,对于特斯拉以外的公司而言,这要求太高了。对于特斯拉而言,其实也没那么疯狂。

Lex:然后,后续问题是,我们开车,操控物体,这个任务有多难,以至于进行规模化,它就可以产生影响?

我认为,根据不同的场景,机器人技术的好处在于,除非用于制造业,它会有 更大的容错空间 。

对于驾驶来说,安全性至关重要,时间精度也非常重要。而机器人可以更慢地移动,这挺好的。

Andrej:是的,我认为需要很长的时间。但是,你想规划开发的方式是,你需要说,好吧,我们需要很长的时间。我怎样才能制定产品的发展路线图,让我能在这个过程中获得收入。

我不会给自己设定一个 非零即一的损失函数 :在它成功之前,是无法运作的。我们不希望处于这种境地。我们想让它几乎立即运作起来,然后,我们想要慢慢地部署它,并进行规模化。

我们想要搭建我们的数据引擎,我们的改进循环,测量,评估,控制管理,以及所有的流程。

我们想要随着时间的推移, 逐步改进产品 。而且我们在这一过程中获得收入,这一点至关重要。因为否则的话,我们将无法推进这些大型项目,那在经济上并不合理。

而且从工作团队的角度来看,他们也需要一路都获得多巴胺。他们不能接受,只是承诺这会成为有用的产品,一旦成功,它将在10年内改变世界。这不是我们想要的方式。

我们想要的方式类似于今天的autopilot,它提供了不断增强的安全性和驾驶的便利性,就在今天。人们为它掏钱,人们喜欢它,人们购买它。然后,你也有更大的使命,正在努力实现。

Lex:而你看到了,团队的多巴胺,是快乐的一个来源。

Andrej:没错,我们部署这个产品,人们喜欢它,人们驾驶试用它,人们为它掏钱,他们关心它,发布所有这些油管视频。

你的奶奶驾驶试用它,她给你反馈。人们喜欢它, 人们参与其中 ,你参与其中,无比重要。

- End -

关键词: 人工智能 所有这些

相关新闻
科技
精彩推送