
1.1.3 语义层环境感知技术
近二十年,语义层环境感知技术得到研究人员的广泛关注,相关论文的数量统计情况如图1-3所示(使用谷歌学术搜索引擎,同时搜索关键字“robot”“semantic”和“perception”得出),由图可见,该领域研究呈稳定、快速增长态势。

图1-3 语义层环境感知论文数量统计图
语义层环境感知技术指在机器人系统中显式地对环境要素(如布局、结构和物体等)有关的语义信息建模,从而使机器人能够显式地从环境中获取相应的语义知识,并对环境形成“认识”,是构建语义地图的基础。此类技术涉及的一个核心概念是“语义知识”,尽管对“语义知识”的释义在机器人领域并不统一,但是相关研究在两方面达成基本共识:一是机器人内部需要有知识的显式表达,二是表达中的符号需要与物理环境中的物体、参数或者事件等关联。相关研究的难点在于如何使机器人和人内部的两种完全不同的感知机制在语义层面发生一定程度的契合。语义感知结果有时将直接用于人机交互、操作等任务,而有时用于在机器人内部形成类似传统地图的环境模型,此类模型通常称作“语义地图”。“语义地图”作为对传统度量地图和拓扑地图的补充,能够为机器人推理、规划和执行相关任务提供更丰富的信息,也是目前的研究热点。
“语义”所涵盖的具体含义非常广泛(如物体、物理量、建筑结构、关系、行为等),人可以从直观上理解的对象均可归为“语义”范畴。因此,能使机器人在与环境交互过程中显式地表现出类人的概念(语义)生成行为的技术,即可将其视为语义层环境感知技术。从机器人研究角度看,一些传统技术,如物体识别技术和动态目标识别技术,也能够提供对于机器人所处环境意义上的理解,也可视为语义层环境感知技术。这些传统技术很多已形成理论体系,本节不再赘述。本节仅对机器人领域中出现的一些有代表性的语义技术进行介绍。
一些研究关注人工设计局部特征,如Lowe受生物视觉模型启发提出的尺度不变特征变换SIFT(一种对尺度、平移、旋转变换具有鲁棒不变性的特征),Valgren提出加速稳健特征(SURF特征),以及各种自动学习得到的深度特征、高层抽象特征等,都被广泛应用于机器人领域。在此过程中,人们逐步认识到局部特征粒度过细,不足以描述更大尺度场景或目标对象,因此更多依赖于全局特征描述或中间特征描述来解决粗语义粒度的认知问题。
一些研究关注对环境构成形态的感知。通过简单的对话交互,D'Este等人[37]设计的机器人能够学习与物体及物体属性相关的词汇,以及多物体间的关系概念。Swadzba等人[38]受心理语言学研究的启发提出一种分层空间模型,机器人可以利用它提取位于中间层有意义的场景结构。
一些研究涉及对建筑结构的感知。Goron等人[39]利用3D激光扫描系统捕捉室内矩形状结构对应的语义信息,这类结构包括墙壁、门和窗户等;Nüchter等人[40]提出一种采用3D激光扫描仪的语义建图系统,该系统不仅可以建立环境的3D几何地图,而且可对一些建筑结构(如墙壁、地板等)和复杂物体进行语义标注,生成3D语义地图。
一些研究能够在直接或间接实现物体感知的基础上构建语义物体地图(Semantic Object Map)。Jeong等人[41]将已知物体作为路标,并以基于视觉的相对定位过程作为扩展卡尔曼滤波器的过程模型(Process Model),使得在编码器不可用的场合下机器人仍可以鲁棒地构建环境的语义地图。Tenorth等人[42]提出一种名为KNOWROB-MAP的系统,该系统可以将物体识别和建图系统的输出同物体知识库中的知识相连接,进而形成一种带有关联知识的语义物体地图。Rusu等人[43]提出一种家居环境中面向操作的3D语义物体地图,并提出从密集3D深度数据中自动获取该地图的方法。Mozos等人[44]提出一种使机器人能够通过万维网学习典型办公家具的一般模型,进而对实际环境中的未知家具实例进行分类和定位,由此可建立语义地图。Civera等人[45]对传统无语义的单目SLAM(Monocular SLAM)进行推广,在其基础上叠加对3D物体的识别,所提出的算法在室内实时地实现了语义SLAM。Li等人[46]设计出一种新颖的语义建图方法,其通过可穿戴传感器识别人的动作,利用动作与家具类型的关联模型确定家具类型,进而实现语义建图。Kim等人[47]使用Kinect作为环境传感器,利用室内环境的特殊结构来加速对重复物体的3D提取和识别过程,实现对室内环境的理解,由此可构建语义物体地图。一些物体感知的常用方法参见文献[48]和[49]。
一些研究关注对环境中场所的感知,相关技术在文献[50]中做了详细阐述,受篇幅所限不再赘述。值得注意的是,有时感知到的场所可以作为具有明确语义的拓扑节点出现在拓扑地图中,形成所谓的“语义拓扑地图”(如前述文献[32]中研究工作),这类地图同时具备拓扑地图和语义地图的性质,相关研究应当予以重视。
随着人们对语义内涵的深入理解,一些新颖的研究内容也相继出现,如卡内基梅隆大学的Gupta等人[51]提出一种更加以人为中心的室内场景理解范式,这种方法预测人在场景中的工作空间(Workspace),即可达姿态集合,可视为在行为语义层面上实现对场景的理解。除此之外,随着机器人可感知的语义类别增多,多类语义的有效表达问题受到一些研究人员的关注,如Wang等人[52]提出一种用于描述室内环境的语义地图表达方法,其基于的实体类型包括物体(如桌子)、建筑结构(如墙)和场所标签(如房间)等。目前,从物体的功能性角度以及从人和物体之间的交互行为角度来认知物体的方法受到了广泛关注。