라마 3.1 파인 튜닝 하는 방법

라마 3.1 을 파인튜닝하여 내부 서버에 서비스 올리기

먼저 라마 3.1을 파인 튜닝 하기 전에 학습할 데이터를 만들어야 한다.

보통은 pdf 같은 파일로 qa 리스트를 만들면 된다.

허깅페이스에 올라온 오픈소스로 pdf -> qa 추출을 했더니 너무 처참했다.

그나마 괜찮은 성능을 보인 것은 chatGPT 이다.

유료지만 api 를 활용하니 비용은 거의 몇백원 정도 되었다.

qa 는 jsonl 형식으로 만들어서 허깅페이스 데이터셋에 등록하면 작업하기 편하다.

이제 파인튜닝을 할 준비가 된것이다.

허깅페이스 데이터셋을 가져와서 구글 코랩에서 파인튜닝을 하면 된다.

처음엔 A100 을 사용했으나 현재는 가장 낮은 GPU 도 가능하다.

학습 횟수를 1천번 정도도 돌렸으나 별차이가 없었다.

뭔가 좀 더 연구가 필요하다.

현재 60회 정도 돌리니 그나마 결과가 나은거 같다.

이미지 학습과 다르게 이건 많이 학습 할수록 잘 안되는 느낌이다.

학습이 완료되면 모델을 허깅페이스에 등록한다.

난 gguf 까지 변환하여 허깅페이스에 등록했다.

이제 gguf 파일을 서버에서 다운받아서 ollama 에 올리면 된다.

RTX4070 하나로 돌리는데 속도와 결과는 그럭저럭 쓸만하다.

사용자가 많지 않으니.....,

나중에 colab 에 정리된 코드를 가지고 이야기 했으면 한다.

워낙에 많이 바뀌므로 정리가 어렵다.

smith3015 의 기술 블로그