전체 글 (22) 썸네일형 리스트형 4-3. Reject Sampling, DPO, (f. 강화학습 없이 코드 가독성 높이기) 4.3 강화 학습이 꼭 필요할까? 강화 학습은 강력한 학습 방법이지만, 모든 경우에 꼭 필요한 것은 아니에요. 모델의 성능을 개선하기 위한 다양한 접근 방법이 있으며, 때로는 강화 학습 없이도 효율적인 해결책이 있을 수 있죠. 이번 글에서는 강화 학습 없이도 성능을 향상시킬 수 있는 몇 가지 대안을 살펴볼 거예요. 4.3.1 기각 샘플링: 단순히 가장 점수가 높은 데이터를 사용한다면? 기각 샘플링(Reject Sampling)은 높은 점수를 가진 데이터만을 사용하는 방식이에요. 강화 학습처럼 복잡한 학습 과정을 거치지 않고, 단순히 점수가 높은 데이터를 선택해 모델을 학습시키는 것이죠. 이 방법은 계산적으로 간단하고, 모델이 명확한 기준에 따라 학습할 수 있게 도와줘요. 요약:기각 샘플링은 점수가 높.. 4-2. 선호 데이터셋, 강화학습, PPO, RLHF 4.2 채점 모델로 코드 가독성 높이기 코드의 가독성은 개발자 간의 협업과 코드 유지 보수에 중요한 요소예요. 모델을 사용해 코드 가독성을 높이는 방법을 배우는 것은 코딩 테스트에서도 큰 장점이 될 수 있죠.4.2.1 선호 데이터셋을 사용한 채점 모델 만들기 선호 데이터셋(Preference Dataset)은 두 개의 코드 버전 중 하나를 선호하는 상황을 포함하는 데이터셋이에요. 예를 들어, 가독성 면에서 더 나은 코드를 선택하는 작업을 모델이 학습할 수 있는 데이터셋이죠. 선호 데이터셋은 두 가지 코드를 비교하고, 어떤 코드가 더 나은지 학습하게 함으로써 코드 가독성을 높이는 작업을 수행할 수 있어요. 요약:선호 데이터셋은 두 가지 코드 중 더 나은 가독성을 가진 코드를 선택하도록 학습시키는 데이터.. 4-1. 사전학습(Pretraining), 지도 미세 조정(Fine-tuning) 4.1 코딩 테스트 통과하기: 사전 학습과 지도 미세 조정 코딩 테스트에서 성공하기 위해서는 모델의 사전 학습과 지도 미세 조정 과정에 대한 이해가 중요해요. 이 두 가지 과정은 모델 성능을 높이는 핵심적인 역할을 해요.4.1.1 코딩 개념 익히기: LLM의 사전 학습 사전 학습(Pretraining)은 대규모 데이터에서 기본적인 언어 패턴을 학습하는 단계예요. 이 과정을 통해 모델은 텍스트 데이터를 이해하는 능력을 기르게 돼요. 사전 학습된 모델은 이후에 특정 작업에 맞게 미세 조정할 수 있는 기초를 쌓게 되죠.요약:사전 학습은 모델이 대규모 데이터에서 언어 패턴을 학습하는 단계로, 이후 미세 조정을 위한 기초를 쌓아요.용어설명:사전 학습(Pretraining): 대규모 데이터를 통해 모델이 기본적.. 이전 1 2 3 4 ··· 8 다음