sentence embedding对比学习-SimCSE
发布网友
发布时间:2024-09-05 10:18
我来回答
共1个回答
热心网友
时间:2024-12-01 14:34
SimCSE是一种对比学习方法,旨在提升句向量嵌入的质量,在STS任务上达到最新水平。其创新之处在于提出监督与无监督两种策略。
SimCSE基于两个概念——alignment与uniformity来评估向量表示质量。alignment衡量正例对向量距离的大小,uniformity衡量样本表示分布的均匀性。对比学习通过缓解自然语言表示中的各向异性问题,提升样本表示质量。
无监督SimCSE通过在Transformer模型中应用dropout构造正例样本对,负例样本对则从同一batch内选取。其损失函数根据输入向量和dropout掩码输出向量计算cosine相似度,温度系数调节对困难样本的关注程度。实验显示,SimCSE在STS任务上优于替换句子词汇等方式。
通过调整dropout率,可观察到不同效果。实验表明,0.1的dropout率最优化模型性能。SimCSE在训练过程中,alignment保持平稳,uniformity优化。从预训练好的checkpoint出发同样关键,能提供较高的alignment。
有监督SimCSE结合NLI数据集,引入监督损失函数,提高下游任务效果。加入hard negatives样本的实验表明,这能进一步提升模型性能。