如果把人类探索人工智能的历程比作是征服汪洋大海的过程,那算力、算法和数据就分别代表着船舶、动力和航海图。算力决定了船舶的种类,比如它是邮轮、舰艇还是航母;算法决定了船舶的航行速度,因为它决定船舶是使用蒸汽、柴油还是核动力;数据则是一张航海图,越丰富和精准的数据动力,才能越拉近我们和目的地之间的距离。

近几年,得益于物联网、人工智能、5G等新型技术的飞速发展,智能家居在短短数年间就已经相继渡过了“自动化”、单品智能化”、“物联网+家居场景”三个阶段,进入了当前的“人工智能+家居场景”的“智能”阶段,开启了智能家居对人的思维和意识的学习与探索。

在电影《钢铁侠》中,托尼·史塔克的人工智能管家贾斯维就几乎满足了观众们对“智能家居”的一切美好幻想。然而,当“它”真正走进现实时,虽然也在一定程度上便利了我们的生活,但离理想中的“完美”还差有一大段距离。

根据相关从业者的调查,智能家居技术人员与市场之间并没有形成良好的互动关系,虽然他们开发的产品在技术上具有先进性,但真实的实用性差、操作复杂,与市场需求脱节的现实问题仍旧普遍存在。据公开数据显示,目前市面上的产品中,因人机交互体验差造成消费者消费热情不高涨的原因占比达到了12.7%,而造成这些现象的原因正是由于缺乏丰富且精准的场景数据支持。

就像本文开篇所说,我们对人工智能的探索就是一次征服汪洋大海的过程。从上世纪中期AI起步,到如今探索人工智能与应用场景的深度结合,在“船舶”和“动力”已经得到极大保障的前提下,“航海图”中一旦出现训练数据偏差或者缺少数据支持,那我们与目的地只会背道而驰,相距愈远。

AI数据之于智能家居落地,亦如航海图之于航海

钢铁侠之友——贾斯维,或可以看作是人工智能应用于智能家居的最高目标了,它不仅在日常生活中可以跟史塔克上演拌嘴逗趣的经典名场面,也可以跟史塔克进行“人机协作”,默契的配合工作。

这其中都体现了人工智能技术在智能家居领域中的本质,云测数据总经理贾宇航称之为一场革命,一场AI的交互革命。

而这场革命之中,以语音交互、视觉交互等交互技术为主,以自然语言处理、机器视觉处理等AI能力为支撑。同时,这也就意味着人工智能对场景数据需求几乎全面的覆盖到语音、图像、文本、视频等领域。

在AI体系中,算力、算法和数据是拉动人工智能奔跑的“三驾马车”,分别承担着基础设施能力、指导方法和算法依据的作用。而经过采集和标注的精准数据(语音、图像、文本、视频等),反哺用于算法的迭代训练当中,才能输出一套完整的人工智能数据解决方案。贾宇航将此三者的关系定义为“相互制约、相互促进”。

由此观之,应用于智能家居场景下的AI数据自然是反哺出解决方案的“源头活水”,要想AI技术在智能家居应用中达到最高目标,AI数据自然不可忽视,而且要包含丰富性与准确性两个标准,这也就涉及到人工智能的数据采集与数据标注问题。

其实,人工智能玩家对于AI数据的态度还是比较一致的,包括国外的谷歌、微软、亚马逊,国内的百度、阿里等巨头,都在AI数据上有所建树。除此外,云测数据作为国内数据采集与标注方面的领军者,被媒体与商汤、旷视、涂鸦、地平线称之为“人工智能五强”。 这也是因为业界深知高质量的数据对AI应用的重要性,才将在算法、算力、数据不同领域各有建树的企业进行“组合”,或者说这也是业界对人工智能发展寄托的一个表达方式。

从语音识别角度来看,比如最近某猫精灵宣布上线了四川话,用户可以在使用闹钟、天气、你想我猜等日常生活及娱乐功能时,使用四川方言与其进行对话。

但其实除了方言之外,性别、年龄、讲话人语速、说话背景、噪音、情绪、语言种类等等因素,都是构成一个丰富的、真实的交互样本的关键。这就需要通过将一些特定的数据交给人工智能去强行总结一个特定的规律,这个规律具有一定的适用性,让真正的用户在使用过程中,能够达到一个真实的应用体验。

又或者从语义识别的角度看,当我们需要打开空调时,通过说出一个命令,机器或许可以理解并打开空调。但涉及到富有逻辑的深层次含义时,机器是否能“听懂”?特别在对应的功能越来越丰富后,会拆分出越来越多的子类,比如空调打开之后的温度调整、风速调整等等不同的属性。

因而,智能家居要想真正实现落地,必须要依靠丰富的、高质量的AI数据,以此来反哺AI算法,以帮助智能家居行业企业在发掘AI潜力的道路上提升用户的体验,同时达到自身的降本增效。就像航海的船舶要到达目的地,必须要求一张数据完整且精准的航海图一样。

云测数据,助力行业航向成功的彼岸

在《人工智能2020:落地挑战与应对——中国人工智能行业报告》中,云测数据作为唯一一家AI数据领域服务商入选。相比国内外巨头,云测数据依靠对AI数据的独特见解和商业模式,成功杀出重围,成为行业的头部玩家。

目前,云测数据的数据标注业务已经形成超千人规模的团队,依托场景实验室和数据标注基地两大实力支撑,为除了智能家居领域之外的智能驾驶、智慧城市、智慧金融等领域提供高质量的场景化AI数据服务,全方位支持文本、语音、图像、视频等各类型数据的处理。

面向智能家居行业,云测数据的数据采集核心能力包括唤醒词采集、控制词采集、指定语料采集、人脸采集、情绪类型采集、中英文、国内各地方言、东南亚及欧洲、非洲小语种等采集类型,支持智能音箱、智能电视、智能扫地机器人等场景数据采集;数据标注核心能力包括人物语音转写、行为意图、声纹识别、领域识别、语句泛化、语义分割等标注类型,支持智能音箱、智能电视、智能扫地机器人等场景数据标注。

贾宇航认为AI数据在智能家居领域的发展趋势正向多模态、情感化、细分领域三大方向发展,对此云测数据也建立了自己的服务体系,以持续满足智能家居领域的企业对AI数据服务的需求。

首先是专业化、定制化和场景化。AI数据伴随着AI的发展已经经历了较为混乱的发展期,并衍生出了不同的业态。比如通过爬虫技术进行数据抓取的“史前阶段”,又或者在人工智能技术成长早期,通用数据集也“独有一片天下”。而现在,云测数据通过提供场景化的数据采集和数据标注服务,以此为当下AI产业中即将落地的企业提供服务。

场景实验室和数据标注基地便是云测数据的两大“法宝”:首先是数据场景实验室,为应对智能家居场景中可能出现的一切场景,比如像光线、噪音、背景等环境条件,以及针对不同的人种、语言、年龄、性别等因素,云测数据可以搭建和模拟针对不同需求的“真实场景”,进而对智能家居领域的客户提供还原场景的数据采集;其次是数据标注基地,通过对人工智能训练师进行专业的培训,并且配合自有的数据平台,进行持续迭代,确保整个数据精准的输出,能为安防、家居、驾驶、金融、互联网、零售、教育等领域客户提供专业的定制化服务。

其次是高效率、高精准、高质量。在人工智能领域中有着这样一句话:garbage in,garbage out。换而言之,数据的好坏是可以通过算法的“锤炼”直接体现在最终的结果上的。这实际上也是对一家AI数据服务商对数据精准度控制、数据流程把控、数据质量筛查能力的考验。只有高质量的AI数据,才能最大限度的加速人工智能应用落地,帮助企业降本增效,同时实现市场良币驱逐劣币。

云测数据的人工智能数据服务团队已经形成了一套包含任务分配、需求分析、需求确认、数据清洗、试标确认、进度控制、质量保障等流程的完整作业体系。比如云测数据在语音、文本、图片、视频等类别标注上都设置了底层规则,并设有多次审核机制,再加上专业标注逻辑、思维和思考能力以及相关领域知识,从而高效输出成一套高质、精准的智能家居数据解决方案。

最后是重中之重的数据隐私安全。云测数据对此有着深刻的认识,企业的数据安全是一个企业构成核心竞争壁垒的重要要素之一。所以,在操作流程上,云测数据作为行业独立第三方的身份,加之 “流程中的数据隔离”“绝不复用”等原则,来帮助客户提升AI数据竞争力,保证AI数据的对应价值。

智能家居迸发美丽火花

咨询公司A T Kearney的一项预测显示,到2022年,亚洲的智能家居市场将增长到260亿美元,到2030年将增长到1150亿美元,占全球市场的30%以上。中国将成为亚洲增长的关键。而就智能家居现阶段而言,“人工智能+家居场景”的智能化阶段将呈现持续且长期的发展后劲。AI数据助力下,智能家居行业必定迎来强劲的增长,迸发出绚丽的火花。

最后借用云测数据总经理贾宇航曾说过的一句话,以寄托对智能家居产业美好未来的希冀,“我们希望在已有的领域能够越走越深,同时拓展到更多领域,为更多人工智能企业服务,也希望更多人工智能企业的产品和项目可以更快落地、让人们在日常生活中去使用;真真正正让用户感受到理解和温暖。如果这个愿景达到了,提供数据标注和数据采集服务的我们也就心满意足了。”