在 PC 时代以及移动互联网时代之后,人工智能正在成为人类下一个发展阶段的主旋律。但随着时代的更迭,人机交互的方式也在悄然发生着变化。

PC 时代的主角是鼠标键盘,移动互联网时代是触控,到了人工智能时代,语音和视觉则成为了一条全新的路径,这同时也意味着人机交互的发展正在向着「以人为核心」的方向发生转变。

从 2014 年成立至今,小鱼在家已经走过了四个年头。在过去的几年里,以人为核心的家庭应用场景一直是其坚持去做的事情,而陪伴、记录以及助手这三个功能也始终贯穿在小鱼在家各个产品中。

今年一月份,在美国举办的 CES 展会上,小鱼在家联合百度正式发布了拥有远程视频通话以及语音交互功能的 VS1 智能视频音箱。它不仅让人机交互这件事情变得更加简单,同时也为家庭使用场景提供了更多的可能性。

那么,在人工智能时代,小鱼在家是如何去思考人机交互这件事情的?新技术的应用,又将为产品端带来哪些全新的可能性?在极客公园举办的 Rebuild 2018 大会上,小鱼在家创始人&CEO 宋晨枫给出了他的答案。

以下是小鱼在家创始人&CEO 宋晨枫在极客公园 Rebuild 2018 科技商业峰会上的演讲实录(经过极客公园编辑,略有删减):

十年前我离开了微软回到国内,第一次创业,做的第一个公司是 3D 虚拟世界平台,这家公司在 2011 年的时候卖给 YY。2014 年我离开了 YY,创办了小鱼在家,希望用人工智能改变家庭生活。我们用了四年的时间,三个城市二百多号人,融资超过了 10 亿元。今年我们跟百度推出了新产品,进入到了现在的智能音箱市场。

随着人工智能技术的不断推演,我们实际上不断重新定义我们这个产品,寻找真正能够落地家庭的品类。我们笃定家庭这个场景,实际上有两个最核心的原因。

第一个原因是中国家庭的问题多、机会大,像我们 70、80、90 这一代独生子女,大部分不和父母生活在一起,因为很忙,也没有太多的时间陪伴孩子。实际上每个家庭都需要一个靠谱的家庭助手,最终形态可能就是机器人。大家在科幻作品里看到,不论是《钢铁侠》中的贾维斯,还是《西部世界》里的接待员,我愿意去相信,这个就是我们的未来。当然还需要很多的时间和路径实现它。

第二个原因,正是技术的进步在给我们机会去重新定义产品,去重塑用户体验,再开创新的品类,技术才是这一切的根本驱动力。过去的几年,语音、语义、机器人视觉都有巨大的飞跃,我相信科技还会持续的以指数级的速度去发展。今天人工智能在算法、在算力、在数据,都在快速演进着。

创业公司要看五年,想三年,好好做好一两年。我们希望我们进入这个市场领域,发展到五年的时候,能进入到爆发期。三年的时候已经开始高速发展,这样能够让我们提前两年去探索、去验证,等机会来临的时候,我们已经准备好了。

小鱼在家用了三年的时间,做了 2.5 代的产品去验证,去理解用户的需求,去提升我们的认知,去补充我们的能力。在第三代产品的时候,小度在家带屏智能音箱发布之后,我们基本上踩对了点。但这这个过程中,我们也犯过错,我想把我们如何思考产品规划和技术路线规划的一些想法,分享给大家。

以用户需求为导向,寻找差异化价值

先说说产品路线,一路走来我们都在行业的最前沿,没有别人成功的经验可以借鉴,只好被逼着去思考产品的最核心逻辑,要从用户出发,去考虑我们在哪里可以去建设差异化的价值,并且还能够远远超过用户的预期。

第一代产品我们定位是家庭智能陪伴机器人,这代产品我们选的这个点,就是一个一呼即通的家庭陪伴体验,能够让在外的家人,通过他的手机,三秒回到家里陪伴他的老人和孩子。第一代产品里面的助手,是一个非常辅助的功能,当时的技术并不成熟,体验还非常的糟糕。我们的第一代产品,用户的口碑非常好,但实际上销量并没有达到预期,后来我们总结有两个错误:

第一,我们没有考虑成本,把产品做得太贵了,当时卖 3000 多块钱。

第二,就是这个品类的定位,我们一味的去追求实现我们作为产品经理的一些想法,没有考虑供应链,结果就是把受众缩小了。同时,我们给用户设置了非常高的心理预期,却没有达到。

第二代产品分身鱼主要是解决我们的成本和定位的问题。首先成本降了一半,然后我们尝试了两个定位,一个就是陪伴孩子,另外一个就是视频通话。但我们最后还是放弃了这个产品。首先是孩子的留存比较难,其次是公司的资源有限,我们没有办法去拓展那么多的产品线。

通过前两代产品,我们总结了三点经验:

第一,用户对语音交互给他们带来的便利性,其实是非常的认可的。尤其是老人和孩子,他们在家里会非常自然地开始和一个设备进行语音对话。

第二,家庭场景里面的这种内容消费需求是巨大的,而电视和平板电脑其实只满足了他们的部分需求。谁能够在家庭的场景下,能够更加便捷地把家人所需要的内容,更加快速准确地推送,实际上有可能成为在家庭场景下,用户消费内容的一个新宠。

第三,用户最关注的价值,正是我们第一个产品做的「家庭的陪伴」。分离其实几乎是中国家庭的常态了,能够三秒钟回到家里,完全颠覆了之前这种靠打电话然后等待接听的这种体验。

我们在做第三代产品的时候,其实语音技术已经是相对成熟了,我们也看到在中国的市场,智能音箱这个品类已经有快速发展的苗头,于是顺势进入到这个平台里面去。

小度在家是个百倍易用的带屏智能音箱,在它身上语音交互、屏幕辅助,加上摄象头的识别,这些能力组合产生了化学作用。它不但可以一目了然地把用户询问的答案展示在他的面前,还可以把语音回答和屏幕展示动态配合,比如说你听歌的时候可以滚动歌词,比如说介绍一个人物的时候,显示他的图片。比如说他念字发音的时候,把这个字的笔顺显示出来等,还可以告诉你有什么功能,接下来你可以怎么向它发问,去探索更加丰富的内容和服务。我们这一次其实和百度的深度合作,也引入了非常有价值的内容和服务,比如说百度搜索、百度地图、百度百科、图片等等。

小度在家还是一个智能小电视,我们可以完全用语音操控,想看什么片子直接说就行了,再也不用摇控器。我们让视频通讯更加便捷,可以语音操控,你可以语音去拨打和接听,当然依然支持多方高清视频同话,还有一叫即通的功能,颠覆了家庭之间陪伴的体验。我们更可以随意摆放,比如说在厨房边做饭边追剧,在餐桌边吃早饭边看新闻,放在书桌上面边写邮件边看世界杯。

在我看来,智能音箱的市场战争,不仅仅是产品比拼,而是包括品牌、渠道、内容以及服务在内,整个生态的比拼。

在技术发展路线上的思考

接下来说一下我们在技术发展路线上的思考。我们所在的这个领域,语音和语义是改变智能交互的核心技术。其实 2014 年之前,做语音技术的公司不多,而深度学习把大家都拉回到了同一个起跑线上。

其实通过和百度的深度合作,在包括小度在家甚至更早的小鱼在家这些产品上,我们已经打造了非常好的语音交互体验。而解决语义理解,成为了未来发展的核心。

前边我曾经讲到,小鱼在家向来是以用户为导向,如果在某些方向上我们做不到最好,但是对用户体验非常有帮助,那么我们会努力去和能够做到最好的厂商合作。

因为很多这些技术,未来可能都会变成一些开放的基础能力,如果我们做的没有别人好,反而会变成前进道路上的包袱。我们只有专注用户价值,扩大用户规模,在用户体验遇到问题的点上,去找到技术突破的方向才是更好的选择。

对于一家做硬件产品的公司而言,其实最终还是需要去看产品的出货量。从小鱼在家的角度来讲,能够顺利通过做硬件的雷区走到今天,其实本身就是一个巨大的壁垒。

「多模态交互体验」是人工智能落地最高效的一种模式

最后,说一下我们在多模态方向的探索。记得 2016 年在美国做演示的时候,当时吴恩达说过这样一句话:人和机器交流最高效的方式是通过语言,而机器跟人信息传达最高效的方式是通过语音和视觉的辅助。

我们在过去 3.5 代产品的时候做了 4 次大的迭代,Fish UI 4.0 的实际上是一个巨大的革新。我们把语音交互变成了设备最主要的交流方式,而触屏变成了完全的辅助功能。

毫无疑问,多模态交互是人工智能落地的更加高效的形态。在小度在家的产品发布会上,李彦宏将现在的无屏音箱比作了收音机,而带屏智能音箱则是电视。我们相信,随着整个的生态、内容服务的演进,以带屏智能音箱为代表的多模态交互,会是未来人工智能交互的主流交互形态。

今天人工智能依旧处于向前发展的时代,技术的进步会持续的推动着我们去重塑用户体验,重新定义品类。我们认为,人类对智能音箱这个品类的认知,在未来会发生很大的改变。

而人工智能落地家庭,会带来巨大的、原生的新的平台机会。多模态的交互给所有在座的开发者,都提供了一个非常巨大的发展空间和舞台。改变世界的不仅仅是技术,更有技术背后的价值观、使命和愿景。最后希望我们一起打造人工智能落地家庭的未来。