盛开互动:SKEye让机器人开启识别物品的大门

作者:  1号机器人网记者 释儒道

2017-12-24 16:48:38
\
盛开互动CEO 曾祥永
们现在已经实现了让机器人可以自主行走,它可以对空间进行地图的构建,以及自主规划路径行走,但能否更进一步,让机器人也能对物体进行识别呢?
 
现在国内也有不少企业已经在进行这方面技术的研究与落地,让机器人能够识别物体,如杯子、猫等,需要进行大量的图片识别训练,才能让机器人具备识别物体的能力。
 
北京盛开互动科技有限公司(以下简称:盛开互动)这两年来一直在进行图像识别的技术研发,目前已经有一定的进展,盛开互动CEO曾祥永说:“从今年5月推出SKEye平台以来,目前已有30多家机器人等企业接入平台,SKEye的目的就是让智能产品能够识别物体。”
 
当然,我们现在没有办法让机器人识别所有的物体,因为这是大工程,但现在SKEye能够识别2000类物品,开启让机器人能够识别物体的大门。
 
1号机器人网记者:可否介绍一下,你们的SKEye产品,看你们官网的介绍是可以识别物体,请你详细介绍一下这款产品?
 
曾祥永:
\
SKEye能够识别2000种家用常见物品
SKEye是我们推出的一个深度学习视觉识别技术开放平台,主要面向智能手机、智能硬件、智能机器人等消费级与服务型智能交互设备及场景,提供离线人脸识别与在线物体识别,赋予人机交互设备“认人识物”的终端视觉能力。
 
比如:服务机器人接入SKEye平台,可以让机器人具备认知物体的能力。如识别杯子、沙发、水果等常见的物体。
 
就计算机视觉技术而言,安防监控、智能驾驶、金融身份认证及医疗图像识别属于严肃性应用领域,识别的目的是“确认”,为了识别准确率可以不惜计算代价与硬件成本;而SKEye关注的是“交互”,尤其是嵌入式设备的视觉交互,非常快、足够准、低功耗是SKEye的核心目标。
 
深度学习大幅提升了算法的识别率、稳定性,但它一般需要高性能CPU或GPU才能流畅运行,这又是弱计算能力终端设备无法满足的,SKEye应用了我们自主研发的被充分优化与裁剪的深度CNN模型,保障在达到足够精度的条件下,尽可能满足人机交互的实时性与低功耗需求。
 
自2017年5月推出以来,SKEye已有30余款智能机器人、智能手机等应用接入。包括:康力优蓝的小优机器人、锐曼的晓曼机器人、智能管家的布丁豆豆机器人、上海元趣的好儿优机器人等。
 
1号机器人网记者:让机器人能够识别物体,对机器人企业来说非常有吸引力,你们是通过什么方式进行研究的?目前能够识别多少种物体?
 
曾祥永:我们做常见物品识别的初衷是希望智能产品具有像人一样的视觉常识。目前SKEye可识别的常见物品超过了2000类,实际应用中的TOP1准确率达到了85%。
 
大概在四年前,我们就开始考虑如何利用深度学习实现家庭场景中的常见物品识别,为此,我们自己先列出了一个常见物品列表,如:家具家电、服饰玩具、蔬果食品及动植物等。
 
最初,我们通过互联网下载收集这些物品的图片,并清洗标注为样本,通过卷积神经网络分类算法训练识别模型,之后再通过在线API接口授权给智能硬件、智能机器人及手机APP使用。
 
我们不断获得了新数据,从中我们筛选出部分数据作为新样本,然后迭代训练识别模型并更新物品列表。
 
下一步,我们也将为离线应用场景提供“云端训练+终端执行”的物体识别SDK。
 
1号机器人网记者:人脸识别、人脸分析、物体识别,这几项技术用的是同一个摄像头吗?如果把这几项技术融合在一起使用,所涉及到技术难度是什么?
 
曾祥永:这几项技术是用同一个摄像头,也可以对同一帧图像做分析处理。
 
但融合使用的难度在于要从整个交互逻辑上实现精度、速度、及功耗的平衡,尤其基于ARM-CPU等嵌入式弱计算能力设备上的融合使用。
 
人脸识别在实际应用中,首先会利用人脸检测算法捕捉进入视野的人脸,之后采用人脸跟踪与对齐算法快速定位人脸位置并评估人脸姿态,当人脸尺寸足够大(人与机器人达到一定距离)时,再对人脸进行分析(年龄、性别及表情状态)与识别。
 
跟踪与对齐是其中最频繁的操作,而检测与识别及分析,并不是每一帧图像都要做的。
 
而物体识别在实际应用中,首先会通过简单的单帧图像特征检测算法判断图像是否有足够的纹理细节,同时通过连续多帧图像评估图像的稳定性和清晰度,当图像足够稳定、清晰且有纹理细节时,才会调用物体识别算法。
 
人机交互是一个闭环过程,人脸识别与物体识别在智能设备上融合使用时,“认人”与“识物”是分先后还是并行,需要根据交互逻辑而定,用户对于识别结果的反馈也会决定下一步识别算法如何执行。
 
1号机器人网记者:让机器人做到对场景的分析是很难的,让机器人分析场景,目前你们已经进展到什么程度?机器人可以对哪些场景进行判断?以及你们是如何做训练的?
 
曾祥永:在场景分析方面,我们主要是在家庭场景图像的多目标检测与定位,让机器人能够从图像中分辨出哪些特定物体,并知道他们的位置。
 
对于家用机器人而言,人体检测与重识别是其应具备的重要能力,因为它并不是每时每刻都能看到用户的脸,一旦机器人“看”到人,就能发起交互。
 
更进一步,如果人周边还存在一些已知物体,就能发起更深入的交互,例如,手拿药瓶的主人出现在机器人面前,机器人在识别主人及手中的药后,就能主动告知用户“如何用药”或关心用户“记得按时吃哪几种药”(前提是机器人已经知道主人最近在吃哪些药)。
 
再如,当机器人面前同时出现熟人和陌生人,机器人通过人脸分析,得出每个人的大致年龄及相互间的相貌相似度,就能给出“你们是一家人吗?”、“你们是同学或朋友吗?”等不同的招呼了。
 
此外,我们也在研究VSLAM(基于视觉的即时定位与地图构建)技术,希望让机器人能够更理解它所处的场景。
 
1号机器人网记者:你们网站上有阿U兔子的案例,你们给阿U兔子提供什么方案?
 
曾祥永:从2015年,我们就开始将视觉技术应用于儿童智能硬件与智能机器人。
 
“阿U幻境”是一款基于图像识别的儿童智能硬件,我们为它提供了涂鸦画、任意画、字母识别、数字识别、七巧板识别、卡片识别、绘本识别及识物识别等全套图像识别算法。
 
这套图像识别算法经过特别的优化,流畅性与识别率都很好,很少有用户反馈误识别或不识别的情况。
 
我们还深度参与了儿童机器人“阿U兔子”的研发,为其提供了包括离线人脸识别、常见物体识别及整套交互系统,让它成为具备“认人识物”视觉能力的家庭机器人。
 
在深度参与这两款产品的研发和SKEye不断接入其他产品应用的过程中,我们积累了大量技术落地经验,也深刻体会到,只有不断提升样本数据的多样性与真实性,并对算法做场景化优化,才可能提升AI的可用性与易用性。
 
算法研究是一回事,技术落地是另一回事,产品营销更是更外一回事。专业的团队做专业的事,才可能取得成功。
 
1号机器人网记者:最后一个问题,你们也在做VR/AR产品,你们是否可以提供AR/VR与机器人结合应用的方案?目前有没有成功案例可寻?
 
曾祥永:在VR/AR方面,我们主要是在探索将图像识别、语音识别及智能问答等多模态交互技术融合应用,实现更加自然与智能的人机交互。
 
我们正在为中国科技馆开发一个智慧导览APP。
 
\
 
其中不但应用了AR技术实现特定展品的互动,还应用了基于深度学习的物体识别与智能问答技术,用户打开摄像头扫一下展品,即可自动识别并跳入到对应展品介绍。
 
针对展品的原理与知识进行任意提问,也能获得对应的解答。
 
未来我们希望可以更多的将VR/AR与图像识别、智能问答等AI技术相结合,让每一个VR都成为可自然交互的虚拟世界。



(本文版权归1号机器人网所有,未经许可不得转载。)

调研中心

你认为早教机器人是创业者首选吗?
早教机器人发展火爆,今年以来不少创客都聚焦早教机器人,虽然现在早教机器人还不赚钱,但是它的市场前景很广阔。对于家庭教育产品而言,早教机器人将会是发展趋势,你认为早教机器人是创业者首选吗?
<<查看结果

你认为扫地机普及还需要多久时间?<<查看结果

热门文章排行榜

一天 一周