[yongggg's] Adapting Large Language Models via Reading Comprehension Review

Machine & Deep Learning

[yongggg's] Adapting Large Language Models via Reading Comprehension Review

Yonggg 2024. 1. 9. 13:28

Abstract

domain-specific corpora(corpus)에 대한 지속적인 사전 훈련이 large language models에 어떻게 영향을 미치는지 탐구하여 raw corpora에 대한 training이 domain knowledge를 가진 모델을 만들 수 있지만, 질문에 대한 answering을 유도하는 능력을 크게 손상시킨다는 것을 밝혔다. reading comprehension(독해; 읽기 후의 답변하는 것을 통해 학습한 지식을 바탕으로 질문에 답변할 수 있는 능력이 향상됨)을 통한 human learning에 영감을 받아 raw corpora를 reading comprehension texts로 변환하는 간단한 방법을 제안한다. 각 raw text는 내용과 관련된 tasks의 series로 그 양이 방대하다. 확장성이 뛰어나며 모든 corpora를 pre-training에 적용할 수 있는 본 연구의 방법론은 생물 의학, 재무 및 법률의 다른 세 가지 영역에서 다양한 tasks에 걸쳐 지속적으로 성능을 향상시킨다. 특히 본 연구의 7B language model은 BloombergGPT-50B와 같이 훨씬 더 큰 scale의 domain-specific models와도 경쟁력 있는 performance를 보여준다. 또한 domain-specific reading comprehension texts가 일반 benchmarks에서도 모델의 성능을 향상시켜 더 많은 Domain에서 일반 모델을 개발할 수 있음을 보여준다.

위의 그림은 biomedicine, 금융, 법률 분아야의 domain-specific task에 대한 performance이다. General LLM은 continued training 없는 일반 모델이며, DAPT는 domain-specific raw data에 대해 gneral model을 continual training을 했고 Adapt LLM은 raw corpora를 기반으로 구성된 reading comprehension texts에 대해 일반적인 instrutions과 혼합하여 일반 모델을 지속적으로 교육한다.

Introduction

General LLM이 확산되며, Domain-specific LLM이 등장했다. 기존 방법은 크게 세 가지 접근 방식으로 분류할 수 있다.

domain-specific 및 gneral corpora의 혼합 데이터를 처음부터 모델화한다. 이는 직관적으로 domain-specific LLM을 생성하지만 많은 연산량과 데이터의 요구사항으로 인한 문제가 발생한다.
supervised datasets을 사용하여 LLM을 fine-tuning하는 것은 보다 cost-effective option을 제공한다. 그러나 Zhou et al.(2023)과 Guidbande et al.(2023)에서 논의점과 같이 fine-tuned LLM이 모든 domain-specific tasks에 보편적으로 적용할 수 있는 domain knowledge를 파악하는지에 대한 불확실성은 여전히 남아있다.
domain knowledge에서 검색된 결과를 general 언어 모델의 prompts로 사용하는 것이다. 이는 LLM 자체에 대한 직접적인 개선이라기보다는 LLM의 적용으로 간주된다.

domain-adaptive pretraining으로도 알려진 domain-specific corpora에 대한 지속적인 pre-training은 다양한 자연어 이해 모델을 특정 domain에 adpating하는 데 효과적인 것으로 입증됐다. 이 접근 방식을 통해 언어 모델은 일반적인 능력을 활용하는 동시에 domain-specific knowledge를 통합하여 Downstream domain-specific tasks에 비용을 절감할 수 있다. 이는 continued pre-training이 대규모 generation model에도 도움이 되는지에 대한 investigation에 동기 부여가 된다. 본 연구에서는 raw corpora에 대한 contined training으로 인해 성능이 크게 저하되지만, fine-tuning evaluation 및 knowledge probing tests에 여전히 도움이 된다는 것을 보여주는 세 가지 domain에 대한 초기 실험을 수행한다. 이는 raw corpora를 사용한 domain-adaptive pre-training이 LLM에 domain knowlege를 부여하는 동시에 prompting 능력에 영향을 미친다는 결론을 도출한다.

domain-specific knowledge를 활용하는 동시에 prompting performance를 향상시키기 위해 본 연구에서는 large-scale raw corpora를 reading comprehension texts로 변환하는 간단한 방법을 소개한다. 각 raw texts는 그림 2와 같이 내용과 관련된 tasks의 series로 풍부해진다. 이 tasks는 raw text의 contxts를 기반으로 모델이 자연어를 사용하여 질문에 답하는 능력을 유지할 수 있도록 설계되었다. 또한 다양한 General instruction으로 reading comprehension texts를 augmentation 하여 prompting 능력을 더욱 향상시킨다. biomedicine, 금융 및 법률과 같은 영역에서의 실험은 다양ㄴ한 domain-specific tasks의 효과적임을 강조한다. 본 연구는 이 결과로 모델을 AdaptLLM, Adapted Language Model이라고 한다. 향후 이 방법론을 general LLM 개발로 확장하여 더 많은 domain에 걸쳐 작업 환경을 확장하는 데 기여한다. 본 연구의 contributions은 다음과 같다.

본 연구는 LLM에 대한 continued pre-training을 조사하며, domain-specific raw corpora에 대한 continued training은 모델에 domain knowledge를 제공할 수 있지만 prompting 능력을 손상시킬 수 있음을 발견했다.
large-scale raw corpora를 자동으로 reading comprehension texts로 변환하여 domain knowledge를 효과적으로 학습하는 동시에 Prompting 성능을 유지하는 간단한 recipe를 제공한다.
본 연구의 실험은 biomedicine, 금융 및 법률의 세 가지 다른 영역에서 모델 성능을 지속적으로 개선하는 데 있어 본 연구 방법의 효과를 보여준다.

Preliminary Exploration on Continued Pre-training

자연어 understanding model을 적응시키는데 있어 continued pre-training의 효과와 효율 성이 입증 되었기에 이 방법이 large-scare generative models에도 효과적인지 확인하기 위한 탐색을 한다. (LLaMA에 biomedicine, finance, law domain을 continual training 한다.)

Prompting vs. Fine-tuning.

표 1을 보면, fine-tuning을 했을 때, domain-adaptive pretraining 후 세 가지 domain 모두에서 일관된 성능 향상을 확인할 수 있다. 이는 언어 이해 모델과 관련된 결과와 일치하며, continual training이 domain-specific knowledge로 LLM을 비옥하게한다. 역설적으로 domain-adaptive pre-training 후 대부분의 domain에서는 Prompting performance가 현저하게 감소하는 모순적인 현상이 나타난다. 이 모순은 vanila domain-adaptive pre-training이 LLM의 지식을 향상시켜 fine-tuning 개선에 기여하지만 prompting에서 잘 수행하는 능력을 크게 손상시켜 prompting performance를 저하시킨다는 가설로 이어진다.

Domain Knowledge Probing.

언어 모델이 continued pre-training 동안 domain knowledge를 얻는지의 여부를 추가로 확인하기 위해 LAMA(Petroni et al., 2019) 방법과 유사한 방법으로 domain knowledge를 조사한다. 각 domain에서 사용할 수 있는 supervised datsets를 기본으로 사용하여 domain-specific knowledge probing datasets을 만든다. dataset 생성 process는 Appendix A에 자세히 나와있다. 표 1을 보면, 두 domain 모두에서 domain-adaptive pre-training 후 개선된 결과를 관찰하여, 모델이 실제로 domain-specific knowledge를 획득함을 나타낸다.

위의 분석은 Domain-specific prompting performance의 감소가 prompting ability 감소에 영향을 준다는 것을 나타낸다. 이러한 감소는 하나의 특정 domain 내에서 pre-training corpora의 다양성이 제한되어 raw text에서 파생된 입력 출력 패턴이 제한되는 것 때문일 수 있다. 따라서 prompting ability를 향상시키는 것은 continued pre-training 중에 획득한 domain knowledge를 효과적으로 활용하는 것이 중요하다.

Adapting Large Language Models via Reading Comprehension

domain-specific raw corpora를 LLM에 continuing train 하는 것 대신, 본 연구에서는 raw corpora를 reading comprehension texts로 변환하고 이를 model을 adapt하는 데 사용한다. reading comprehension에서 각 raw text는 그 내용과 관련된 tasks의 series가 뒤따른다. 본 연구에서는 raw text에 대한 모델 training phase를 "reading" 단계로 간주하고 이후 tasks에 대한 후속 trainin을 "comprehension" 단계로 간주한다. 이러한 comprehension tasks는 입력 질문에 대한 모델의 대답을 유도하는 능력을 강화하는 것을 목표로 하는 question-answering format을 따른다.

이 design은 인간의 학습에서 영감을 받아 작성 됐으며, 독서 후의 실습은 습득한 지식을 기반으로 질문에 답변하는 능력을 향상시킨다. 또한 본 연구에서는 입출력 형식의 다양성을 활용하여 train data를 general instructions으로 증강하여 prompt ability를 더욱 향상시킬 것을 제안한다.

Creating Reading Comprehension Texts

van de Kar et al. (2022)는 zero-shot 능력을 향상시키기 위해 raw pre-training corpora에서 작업을 mining(채굴)하는 아이디어를 도입했다. 이 접근 방식은 소수의 regex 기반 패턴을 통해 raw texts에서 본질적인 tasks를 효과적으로 추출하여 fine-tuning을 통해 모델의 zero-shot 성능을 크게 향상시킨다. 본 연구의 접근 방식은 mining strategy의 self-supervised 특성을 활용하여 comprehension tasks를 만든다. 이를 통해 raw texts에 포함된 domain-specific knowledge과 comprehension tasks에 의해 제공되는 향상된 prompting 능력을 활용하여 raw pre-training data의 전송을 확장할 수 있다.

표 2는 raw texts에서 tasks를 추출 및 생성하는 데 사용하는 기법의 개요를 보여준다. article을 기반으로 한 답변 질문과 같은 문구는 그림 2와 같이 raw texts를 다음 작업과 연결하는 데 사용된다. 또한 각 task template을 다양한 변형으로 구문 분석하고 task를 전환하여 task의 다양성을 향상시킨다.

Summarization 제공된 article에 대한 간결한 요약을 생성하도록 모델에게 유도(prompting)하며, 주요 아이디어를 추출하도록 유도한다. 본 연구진은 What is a summary? 와 같은 query를 사용하여 text title을 groundtruth로 사용하여 모델이 기사를 요약하도록 유도한다. 또한 모델에게 주어진 title을 기반으로 기사를 작성하도록 요청하며 task를 되돌린다.

또한 본 연구진은 sentence topics을 식별하는 언어 모델을 작업한다. 이러한 input-output pair 쌍을 발견하기 위해 regex 기반 패턴을 사용하여 표 2에 명시된 패턴과 일치하는 문장을 식별한다. 그런 다음 해당 작업 template를 사용하여 input-output 쌍을 구성한다.
(코드 확인 결과 article을 요약하는 것이 아닌 제목을 요약으로 본문을 랜덤하게 나누어 sent1, sent2로 사용)

Word-to-Text word-to-text는 모델이 특정 단어를 포함하는 문장을 생성하도록 유도함으로써 domain-specific 어휘에 대한 이해도를 향상시킨다. 본 연구진은 domain-specific 단어를 식별하기 위해 SentencePiece 도구(Kudo & Richardson, 2018)를 사용하여 target domain corpora에서 어휘를 구축한다. 그 다음 domain 어휘에는 존재하지만 일반 어휘에는 없는 단어를 domain 별로 간주하여 이 domain 어휘를 일반 언어 모델의 어휘와 비교한다. 또한 10자 미만의 token을 필터링하여 domain-specific keyword 세트를 생성한다.

raw text의 각 문장에 대해 domain-specific keywords의 수를 센다. Word-to-Text 작업을 수행하기 위해 domain-specific keywords가 3개 이상인 문장을 선택한다. 본 연구진은 sentence안의 domain-specific keywords를 입력으로 받아 모델이 Generate a sentence that includes these {DOMAIN} keywords 문장을 생성하도록 요청한다. 또한 이 문장을 input으로 받음으로써 What keywords abot {DOMAIN} can be extracted from this sentence? 이를 모델에게 입력하여 target domain에 대한 키워드를 찾도록 요청함으로써 작업을 전환한다. 여기서 우리 연구진은 {DOMAIN} 을 biomedicine, finance or law와 같은 domain 이름으로 대체하여 target domain을 지칭한다. 표 2의 mining pattern과 input-output template를 사용하여 개념을 정의하는 언어 모델을 목표로한다.

Natural Language Inference

...

Commonsense Reasoning

...

Paraphrase Detection

...

Text Complete

...

이와 같이 중략된 부분은 논문을 참고 바란다.

Main Results

위와 같이 domain-specific datasets의 Domain Knwledge를 잘 이해하며, Prompting Ability를 해치지 않는 결과를 보여준다.