哪里求最大值了?求的是损失函数的最小值,损失最小,则意味着模型预测的结果和实际的情况非常接近(暂不考虑因模型泛化需要,而设置的惩罚项的影响)。这个时候,求损失函数的最小,则可以转化为求一个凸函数的极小值。梯度下降这种近似求解方法就是适合这种场景了