最近 ChatGPT 非常火,不过 OpenAI 还没公布它的论文,根据它的详情页面和介绍可以发现它是基于 InstructGPT 方案做的,我们可以先从 InstructGPT 入手看看它是如何通过学习人类喜好提升模型效果的。
对于部分信息获取的需求,在搜索场景下,直接返回答案会比返回相关文档再让用户去文档里找更直接和高效;另外,对于屏幕限制的设备,如手机和语音助手,直接返回简短答案的方式需求会更大。本文将简单介绍KBQA 和 ODQA。
Transformer 恰好属于对位置不敏感的结构,所以我们需要额外给 Transformer 带上每一个字所在的位置。本文介绍了绝对位置编码和相对位置编码两种方式。
Mask 的灵感是来自于完形填空。Transformer 结构包括编码器和解码器,在编码过程中目的就是为了让模型看到当前位置前后的信息,所以不需要 attention mask。但是在解码过程中为了模拟在真实的 inference 场景中,当前位置看不到下一位置,且同时需要上一位置的信息,所以在训练的时候加了attention mask。能很有效提升泛化性。
现代的知识蒸馏中,我们发现学生模型可以与教师模型有着不同的预测结果,即使学生模型能完美匹配教师模型。尝试的去比较学生模型的泛化能力与匹配程度的相关性。泛化性指模型经过训练后,应用到新数据并做出准确预测的能力、匹配程度则能更好反映了学生模型蒸馏到了多少教师模型含有的知识。