353 天前 / 机器视觉与算法建模
构造一个简单的全卷积神经网络作为解码器,编码器使用预训练模型 ResNet18。数据集使用 VOC2012。 小记录在写的过程中,遇到了些坎,这里做个记录。 训练时的 ground truth 简写 GT,即图像标注。计算 loss 时要求 predict 出的特征图 outputs 的 shape 与它的标签 GT 一致。而模型的输出 shape 格式是:(batch_size, classes, channels, height, width),而我们的标签在未做处理之前是没有 classes 这个维度的,即 (batch_size, channels, height, width),因此在数据输入之前需要做处理,才能正确预测...