Paper https://arxiv.org/abs/1708.02002
Binary Cross Entropy Loss
以二分类交叉熵为例
LCE(p,y)={−log(p),y=1−log(1−p),otherwise
简化一下,令
pt={p , y=11−p , otherwise
得到LCE(p,y)=−log(pt) , pt表示p 与 y 的接近程度, pt越高,p与y越接近,分类越准确
平衡类别的交叉熵 Balanced Cross Entropy
目标检测任务中,大多数情况负样本远大于正样本,导致交叉熵难以学习正样本,摆烂直接全都输出负样本
一个朴素的想法就是统计ground truth 中正负样本比例,作为权重加到Loss上。(论文中直接设了个超参α)
LCE(pt)=−log(pt)×α
Focal Loss
无论是设一个超参α还是每一个样本都统计正负样本比例,都是确定的权重,不够adaptive。
Focal Loss 还是从α上下手
LFL(pt)=−log(pt)×(1−pt)γ
γ>0 为超参数, 当γ=0时等于Cross Entropy
加上一个与p相关的权重,因为pt表示准确程度,那么1−pt就是不准确程度,代表这个分类更难。
当样本分类困难时,1−pt高,Loss 权重高
当样本分类简单时,1−pt低,Loss 权重低
由于0<1−pt<1,γ越高,简单样本的权重越低,困难样本则影响不大,从上图中也能看出来,差异较大的部分在0.1<p<0.6