数据标注、采集、虚拟化 现阶段,人工智能的实现多数基于数据标注;广义上,数据喂的越多,算法效果越精准。所以海量数据是精准算法的基础,而海量数据的前提是这些数据带标签,即标注信息。 数据标注有两种方法,一种是人工标注,依靠人给数据打标签,非常消耗人力物力,更重要的是时间。一种是自动标注,比如采用聚类的方式,自动标注显然是省时省力的事情,下文将分析特斯拉自动标注方法。 特斯拉认为他要实现十字路口车道算法,大概需要几千万个驾驶旅程,经过大概百万个十字路口。特斯拉目前大概每天有50万个旅程,但是要把这些旅程转化成可训练的数据是非常难的课题,特斯拉表示尝试了各种人工和自动标注方法,显然不太可能。为此,特斯拉开发了新自动标注算法耗时12个小时对1万个驾驶旅程,相当于500万小时的人工标注。