6.4 基于增强学习的路径推理