融合强化学习的分阶段策略求解旅行背包问题-学术咨询网
计算机工程与科学杂志

计算机工程与科学杂志

  • 北大期刊
  • CSCD
  • 统计源期刊
  • 知网收录
  • 维普收录
  • 万方收录
基本信息
  • 主管单位:

    国防科技大学

  • 主办单位:

    国防科技大学计算机学院

  • 国际刊号:

    1007-130X

  • 国内刊号:

    43-1258/TP

  • 创刊时间:

    1973

  • 期刊类别:

    计算机期刊

  • 出版社:

    计算机工程与科学

  • 主编:

    王志英

  • 发行周期:

    月刊

出版信息
  • 审稿周期:

    1-3个月

  • 被引次数:

    19216

  • 邮发代号:

    42-153

  • 全年定价:

    ¥796.00

  • 他引率:

    0.9643

  • 邮编:

    410073

期刊详情 投稿咨询 关注公众号

融合强化学习的分阶段策略求解旅行背包问题

作者:章政,夏小云,陈泽丰,向毅 ——本站更新时间::2025-05-25
摘要:旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的

旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。


The travelling thief problem (TTP) is a combination of the traditional traveling salesman problem(TSP) and the knapsack problem(KP), which is an NP-hard problem. Compared with the independent TSP and KP, the TTP is more realistic and has higher research value. Previous TTP solving algorithms are mainly heuristic algorithms with limited performance, and other types of algorithms are less studied. To acquire better solution for TTP, a staged strategy of incorporating reinforcement learning is proposed. The first stage generates an item selection plan based on the properties of items. The second stage uses a reinforcement learning algorithm (Actor-Critic algorithm) to solve the travel path. The third stage introduces neighborhood search strategy to optimize the obtained solution. Experiments show that the proposed algorithm achieves good results on most test cases and, in some cases, outperforms the compared algorithms in terms of solution quality, demonstrating the superior performance of the proposed algorithm. 


相关文章

No related articles found!
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社