Skip to main content
 首页 » 评论

自动驾驶数据集也是一门好生意

2周前 (10-02)18厚势

数据集是机器学习算法的命脉——从某种意义上讲,数据集对于自动驾驶等人工智能应用领域,最重要的是它们的质量最高。同时,数据集也衍生出自动驾驶行业新的商业模式。

这就是为什么 nuTonomy 今天发布了一个名为 nuScenes 的自动驾驶数据集,它声称其规模和精确度超过了 KITTI、百度的 ApolloScape 和 Udacity 自动驾驶汽车数据集等公共数据集。

Scale 为 nuScenes 提供了数据注释,公司首席执行官表示,这是有史以来发布的最健壮的开放源码,基于多传感器自动驾驶数据集。

NuTonomy 编辑了 1000 多个场景,其中包含 140 万幅图像、40 万次激光雷达扫描(判断物体之间距离)和 110 万个三维边界框(用 RGB 相机、雷达和激光雷达组合检测的物体)。

它们已经通过 Scale 的传感器融合注释 API 进行了细致的标签,该 API 利用人工智能和人类团队进行数据注释,并且从本周开始面向行业开源。

近年来,越来越多的公司在加入这个行列。比如,早些时候全球红外系统供应商 Flir 发布了基于热成像仪拍摄的 1 万多张带标注图片。Mapillary 公司发布了 25000 张街道级别的图像,以及加州大学伯克利分校上传了 10 万张基于 RGB 相机拍摄的视频序列。

之所以被称之为比之前其他公司和机构发布的数据集更为全面,是因为此次数据搜集使用了 6 个摄像头、1 个激光雷达、 5 个毫米波雷达、GPS 及惯导系统,包括对于自动驾驶系统有挑战性的复杂道路、天气条件等。

参与此次数据标注的 Scale 公司,自 2016 年成立以来,已经为包括 Lyft、Voyage、通用汽车、Zoox 和 Embark 在内的客户标出了超过 20 亿英里的行驶里程。

今年 8 月,Scale 宣布了一轮 1800 万美元融资,迄今该公司已筹集到 2270 万美元,报告称去年公司收入增长了 15 倍。

数据标注的对象通常有图像、语音、文本、视频、雷达等。图像类主要针对视觉识别类公司,所要标注的图像内容包括人像、建筑物、植物、道路、交通标志、车辆等,每项内容下面,又会根据不同的特征进行不同标签的标注。

业内人士表示,一般而言,客户会有自己的需求,公司依规而行。目前在国内,阿里巴巴、腾讯、百度等大型互联网公司,拥有海量的数据标注需求,单个订单量都是以亿元为单位。如此大的订单,基本都是分包给不同的数据标注公司进行处理,国内外还没有一家公司能够处理这样大的订单。

另外还有自动驾驶公司,以及视觉图像处理的公司,也有着数据标注的强烈的需求,他们需要用标注后的数据来训练人工智能,而人工智能的日趋成熟,是永无止境的。

业内人士透露,数据标注是一个简单又困难的事情。简单之处在于,确定了筛选规则以后,操作人员只需依规操作即可,没有执行上的难度,而困难之处在于,数据标注本质上是要获得更准确、更精细化的数据结果,高质量的数据是业内急需的。

「在数据采集上,由原来的普通行车记录仪的数据采集,到现在已有诸多公司开始使用特殊采集设备采集行车数据。在数据标注上,原来的 2D 标注到 3D 标注,再到语义分割,3D 点云的标注需求,对数据的要求越来越专业」,龙猫数据 CEO 昝智表示,「我们也正不断开发新的标注工具,适配自动驾驶行业的发展。」

昝智表示,未来至少 10 年内,各领域对 AI 数据的获取需求只增不减。在发展的不同阶段,龙猫数据也将不断关注技术更新,适配新的需求。

而在在行业内特斯拉是第一家规模化采集数据的汽车制造商,他们很早就用自己的车辆来收集数据,为无人驾驶技术研发提供基础数据。

由于没有获取车辆数据源的通道,目前有很多汽车厂商都在模仿特斯拉的做法,通过在自己公司生产的车辆上安装采集设备,获取车辆数据并回传到平台,这是一种最直接的方式,也是相对比较明智的做法。

目前,全球主流的自动驾驶测试数据集包括 Cityscapes、Imagenet(ILSVRC)、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。

Cityscapes

Cityscapes 是由奔驰与 2015 年推出的,提供无人驾驶环境下的图像分割数据集。用于评估视觉算法在城区场景语义理解方面的性能。

Cityscapes 包含 50 个城市不同场景、不同背景、不同季节的街景,提供 5000 张精细标注的图像、20000 张粗略标注的图像、30类标注物体。用 PASCAL VOC 标准的 intersection-over-union(IoU)得分来对算法性能进行评价。

Cityscapes 是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一,其关注真实场景下的城区道路环境理解,任务难度更高且更贴近于自动驾驶等热门需求。

KITTI

KITTI 是由德国卡尔斯鲁厄理工学院和丰田芝加哥技术研究院于 2012 年联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

KITTI 用于评测 3D 目标(机动车、非机动车、行人等)检测、3D 目标跟踪、道路分割等计算机视觉技术在车载环境下的性能。

KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达 15 辆车和 30 个行人,还有各种程度的遮挡。

ILSVRC

ILSVRC 也就是通常所说的 Imagenet 数据集,是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。

它是目前深度学习图像领域应用较多的一个数据集,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet 数据集有 1400 多万幅图片,涵盖 2 万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

COCO

COCO(common objects Dataset)数据集,它由微软赞助,除了基本的图像的标注信息外,还有对图像的语义文本描述,COCO 数据集的特点是开源,这使得它在近三来在图像分割语义理解领域取得了巨大的进展,Google 的开源 show and tell 生成模型就是在此数据集上测试的。

PASCAL VOC

PASCAL VOC 是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。

虽然它在 2012 年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

CIFAR

CIFAR(Canada Institude For Advanced Research)包括 CIFAR 10 和 CIFAR 100 两个数据集,它们被标记为 8000 万个微型图像数据集的子集。

这些数据集是由 Vinod Nair、Alex Krizhevsky 和 Geoffrey Hinton 收集的。CIFAR 对于图像分类算法测试来说是一个非常不错的中小规模数据集。

MNIST

MNIST(THE MNIST DATABASE of handwritten digits)号称深度学习领域的「Hello World !」,是一个手写的 数字数据集。当前主流深度学习框架几乎无一例外将 MNIST 数据集的处理作为介绍及入门第一教程。

微信
手机:13728700505