( )的目标是获得一个策略去指导行动,会从一个初始策略开始,在学习过程中,主体通过行动和环境进行交互来产生新的数据,不断获得反馈,并通过反馈优化策略,是一种强大的学习方式。 A、有监督学习B、无监督学习C、半监督学习D、强化学习 发布时间:2024-11-14 00:53:32