可以从多种方向进行调整: 1 将损失函数换成交叉熵损失函数,因为训练后期误差较小时,使用均方误差作为损失函数,则梯度越来越小,因此训练进程会越来越平缓。 2使用随机梯度下降法,防止局部收敛 3调小学习率