这条来聊一下特斯拉截至目前尚不成功的自研计算机视觉自动雨刮,这是一个非常有参考价值的案例。
2017 年 7 月,不搭载传统雨量传感器的特斯拉 Model 3 投产,随后的 Model S/X/Y 也逐渐移除了这个东西。特斯拉试图通过辅助驾驶摄像头来实现对雨量的识别,并自动控制雨刮至相应的档位。
这个替代有其合理性:在 2016 年 10 月特斯拉推出的 FSD Beta Demo 视频中,就有一个深度神经网络用于检测当前是否处于下雨状态。
所以当 Autopilot 启用时,整车有两套完全独立的感知 - 决策系统来判断雨量,一个是传统雨量传感器,另一个就是 Autopilot 这条线。这是没意义的。
2019 年 11 月,特斯拉推出了第一版基于视觉的自动雨刮深度神经网络 Deep Rain v1,实际上,Autopilot 团队当时信心满满。
特斯拉用了 100 万张图像进行训练深度神经网络,重点改善小雨工况下自动雨刮的灵敏度。此外,特斯拉在 Deep Rain v1 就引入了类似基于人类反馈的概念,每一次手动调整雨刮,都会作为一个触发器信号,将当前图像上传至云端,用于后续的深度神经网络训练,使其变得更好。
但实际情况很灾难,原因是自动雨刮和 AEB 类似,用户对这类功能的诉求不仅是该触发的时候要触发,还有不该触发的时候绝不能触发。除了不涉及安全,幽灵雨刮并不比幽灵刹车好解决多少。
2021 年 5 月,特斯拉推出了 Deep Rain v3。这是一次重大更新,引入了全车 8 个摄像头同时检测雨量,同时,特斯拉引入更多的环境参照,比如是否处在冰、雾、逆光、潮湿的路面、前车轮胎溅起的水雾、隧道、停车场内…大量的环境参照,以更好的降低自动雨刮误触发的问题。
实际上,Deep Rain v3 驱动的自动雨刮在有些场景下已经比传统雨量传感器体验更好,但依然有误触发和误判。
(这里简单说说,有一个常见也合理的现象:每当你重复造轮子的时候,用户会默认旧轮子是完美的,重复造轮子本身是原罪。
实际上传统雨量传感器在很多场景下根本不行,也有误触发,再比如视觉取代超声波,超声波传感器在 30 cm(or 20 或 15 cm,示规格不同)以内是完全失效的,这也是很大的盲区。
当旧轮子失效的时候,用户不会抱怨,但当重复造出来的新轮子失效,用户会把问题归结到重复造轮子这个动作本身上。
对旧轮子宽容,对新轮子苛刻,基本上是这样。)
那么第 4 版深度神经网络,会基于视频流来判断雨量…——这基本上是过去 18 个月特斯拉对 FSD Beta 的感知神经网络所做的事情,现在连雨量判断也要上视频了。即使是很短的视频也显而易见可以对雨量做出更准确的判断。
我们复盘这个案例,有几点值得说说。
首先,尽管雨量传感器背后也有供电、有线束、有制造,但 1 个雨感成本视技术路线不同在几美元不等,总之综合算下来也没多少钱的,尤其对比特斯拉用 Autopilot 计算机视觉的方法来解,成本也不低。
但特斯拉的思路在这个时代依然非常正义,简直政治正确,那就是用计算来改造整车所有的产品、功能和交互,由于 OTA 和一些别的因素,新轮子体验最终总是会优于旧轮子,而且是遥遥领先,比如 Autopilot。
哪怕雇一批计算机科学来做这个事情成本很高(这些人的时间本用来解决 FSD),但摊销到今天 200 万辆/年的规模上,依然有软件一本万利和数据壁垒的优势。
我们一定要回答这个问题:一个车企是新的大众丰田,还是在做科技企业,整车是一个呈现技术的终端,这是非常本质的不同。
那么特斯拉的问题出在哪里,在于执行。和 FSD 类似,尽管路线正义,但特斯拉用了太长时间来交付产品。这里既有特斯拉主观上低估了利用计算重复造轮子的难度(对应团队、资金、时间表),也有客观上以计算颠覆绝大多数久经考验的车规级产品、功能和交互本身并非易事。
总之,用户只看结果,特斯拉做的事情有想象力,但体验不够好。
2017 年 7 月,不搭载传统雨量传感器的特斯拉 Model 3 投产,随后的 Model S/X/Y 也逐渐移除了这个东西。特斯拉试图通过辅助驾驶摄像头来实现对雨量的识别,并自动控制雨刮至相应的档位。
这个替代有其合理性:在 2016 年 10 月特斯拉推出的 FSD Beta Demo 视频中,就有一个深度神经网络用于检测当前是否处于下雨状态。
所以当 Autopilot 启用时,整车有两套完全独立的感知 - 决策系统来判断雨量,一个是传统雨量传感器,另一个就是 Autopilot 这条线。这是没意义的。
2019 年 11 月,特斯拉推出了第一版基于视觉的自动雨刮深度神经网络 Deep Rain v1,实际上,Autopilot 团队当时信心满满。
特斯拉用了 100 万张图像进行训练深度神经网络,重点改善小雨工况下自动雨刮的灵敏度。此外,特斯拉在 Deep Rain v1 就引入了类似基于人类反馈的概念,每一次手动调整雨刮,都会作为一个触发器信号,将当前图像上传至云端,用于后续的深度神经网络训练,使其变得更好。
但实际情况很灾难,原因是自动雨刮和 AEB 类似,用户对这类功能的诉求不仅是该触发的时候要触发,还有不该触发的时候绝不能触发。除了不涉及安全,幽灵雨刮并不比幽灵刹车好解决多少。
2021 年 5 月,特斯拉推出了 Deep Rain v3。这是一次重大更新,引入了全车 8 个摄像头同时检测雨量,同时,特斯拉引入更多的环境参照,比如是否处在冰、雾、逆光、潮湿的路面、前车轮胎溅起的水雾、隧道、停车场内…大量的环境参照,以更好的降低自动雨刮误触发的问题。
实际上,Deep Rain v3 驱动的自动雨刮在有些场景下已经比传统雨量传感器体验更好,但依然有误触发和误判。
(这里简单说说,有一个常见也合理的现象:每当你重复造轮子的时候,用户会默认旧轮子是完美的,重复造轮子本身是原罪。
实际上传统雨量传感器在很多场景下根本不行,也有误触发,再比如视觉取代超声波,超声波传感器在 30 cm(or 20 或 15 cm,示规格不同)以内是完全失效的,这也是很大的盲区。
当旧轮子失效的时候,用户不会抱怨,但当重复造出来的新轮子失效,用户会把问题归结到重复造轮子这个动作本身上。
对旧轮子宽容,对新轮子苛刻,基本上是这样。)
那么第 4 版深度神经网络,会基于视频流来判断雨量…——这基本上是过去 18 个月特斯拉对 FSD Beta 的感知神经网络所做的事情,现在连雨量判断也要上视频了。即使是很短的视频也显而易见可以对雨量做出更准确的判断。
我们复盘这个案例,有几点值得说说。
首先,尽管雨量传感器背后也有供电、有线束、有制造,但 1 个雨感成本视技术路线不同在几美元不等,总之综合算下来也没多少钱的,尤其对比特斯拉用 Autopilot 计算机视觉的方法来解,成本也不低。
但特斯拉的思路在这个时代依然非常正义,简直政治正确,那就是用计算来改造整车所有的产品、功能和交互,由于 OTA 和一些别的因素,新轮子体验最终总是会优于旧轮子,而且是遥遥领先,比如 Autopilot。
哪怕雇一批计算机科学来做这个事情成本很高(这些人的时间本用来解决 FSD),但摊销到今天 200 万辆/年的规模上,依然有软件一本万利和数据壁垒的优势。
我们一定要回答这个问题:一个车企是新的大众丰田,还是在做科技企业,整车是一个呈现技术的终端,这是非常本质的不同。
那么特斯拉的问题出在哪里,在于执行。和 FSD 类似,尽管路线正义,但特斯拉用了太长时间来交付产品。这里既有特斯拉主观上低估了利用计算重复造轮子的难度(对应团队、资金、时间表),也有客观上以计算颠覆绝大多数久经考验的车规级产品、功能和交互本身并非易事。
总之,用户只看结果,特斯拉做的事情有想象力,但体验不够好。
2
收藏
6