在BERT的论文里面: 2018.10 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT已经解释了BERT,GPT,ELMo的区别。 *ELMo为双向RNN,请忽略。
主要区别:
BERT使用的是…
引言
今天带来一篇结合RAG和微调的论文:RAFT: Adapting Language Model to Domain Specific RAG。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 本文介绍了检索增强微调(Retrieval Augmented Fine Tunin…