세미나 및 행사

< Build with AI United 2024>

섀싹 2024. 5. 7. 22:00

Build with AI United 2024

행사명 : Build with AI United 2024
일시 : 2024년 04월 27일 (토) 오전 11:00 - 오후 04:30
주최 : GDG Cloud KR

 

(기존 velog 의 글을 옮김)
요즘 LLM이 굉장히 각광받고 있는데 오늘 세션들을 들으면서 그 중요성을 체감하고 왔다. 내용은 내게 유익했던 내용들과 내 생각을 위주의 지극히 주관적인 방식으로 정리했다.
이 글에서는 세션 1만 정리해보려고 한다.




1. 인사말 : 개발자는 슈퍼스타다!
2. 소개말 : 구글의 GDG 관련 소개
- 세션 진행

1. 백만 토큰 윈도우로는 무엇을 할 수 있을까? (신정규 연사자)


백만 토큰 윈도우라는 말부터 생소했는데 프롬프팅부터 자세히 설명해주셨다.
그동안 프롬프트에 대해 정말 겉핥기 식으로만 알고 있었는데 프롬프트 원리를 알 수 있었다.

1. LLM 은 챗봇이 아니다.
챗봇은 실제 대화를 계속해서 하는 것이 아니라 글을 계속 이어 쓰는 형태의 문장 생성 모델로
질문 - 대답 - 질문 - 대답이 이어지는 그 모든 내용이 그 다음 질문의 입력으로 들어간다.

어쩐지 chat gpt 나 코파일럿을 사용할 때, 지금 던진 질문을 앞에 했던 질문들과 답을 연관시켜 대답을 해주던 이유가 있었다.


2. 프롬프트
글의 중간을 채워 넣는 방법
프롬프트 인젝션 - 실제 유저에게 보이지 않는 곳에서 다양한 중간 텍스트를 추가해서 특정 동작을 만드는 방법
 ex) 응용 예 : RAG(Retrieval-Augmented Generation) 

프롬프팅 > 중간에 데이터를 추가해서 최신 정보로 훈련된 것처럼 보이게 하는 것
컨텍스트 > 글 전체의 사이즈

 

3. 창발 현상 
모델이 맥락을 제공받아, 원래 훈련하지 않은 작업을 수행할 수 있게 되는 능력
- 모델이 커지면 어느 시점부터 등장 (ex_ in context learning(2020, chat gpt3))
- 거대 언어 모델이란 창발 현상이 발생하는 이후의 모델을 의미
- 현재 창발 현상이 생기는 파라미터 수에 대해 테스트 중

4. 언어 모델 훈련
문장이 어떻게 만들어지는지 이해하는 것
태깅이 없더라도 문장 데이터의 구조를 훈련

5. context window
언어 모델이 한번에 처리할 수 있는 토큰의 최대 개수
- 모델의 컨텍스트 이해 능력과 관련되어 있음.
- 내용이 많을수록 앞부분의 내용을 까먹음(실제로 없어지니까) 
  -> 장기 의존성 파악 어려울 수 있음.
- 윈도우가 크면 클수록 더 많은 맥락을 고려
- 트랜스포머 인코더, 디코더 구조(지수적 증가:선형적으로 연산이 늘어나지 않음)

기존> rag + fine tuning


6. rag
외부에 데이터를 두고 프롬프트로 적절한 쿼리를 만들어 던져 질의 후 그 값을 프롬프트로 줘서 답변 생성에 사용


7. fine tuning (서비스 모델 = 기반 모델 + 미세 조정(파인튜닝)
언어 처리에 대해 특화한 기반 모델은 목적성이 없음 -> 언어의 구조에 기반하여 훈련한 모델
특화한 지식 및 답변 세트에 맞춰 미세 조정, 실제 데이터 등은 외부 검색엔진 및 데이터 베이스

이제는 MoE -> 기존처럼 파인튜닝 각각 다 할거냐...!


8. MoE
여러개의 전문가 모델을 결합하여 하나의 모델을 만드는 방법
GPT4에서 다루어짐
전문가 모델 학습 / 예측 결과 결합 / 최종 예측결과 생성

9. 만약 백만 토큰을 한번에 처리할 수 있는 언어 모델이 있다면?
GEMINI 1.5 pro 토크나이저 기준
70만 단어 = 동영상 1시간 = 사운드 11시간 = 3만줄 이상의 코드
위에서 종합했듯이, 토큰이 많을수록 장기기억력이 좋아짐을 알 수 있다.
장기 기억력이 좋아진다면?
- 장문 텍스트 이해, 맥락 파악 개선, 문제 해결 능력 강화, 언어 번역 정확도 및 일관성 향상, 콘텐츠 개인화 지원 등
- 기억력이 너무 좋아지면 강력한 IN CONTEXT LEARNING 가능

 

10. IN CONTEXT LEARNING 이 좋아진다면?
새로운 것을 미리 가르칠 필요가 거의 없어짐
기억을 위한 다양한 기술을 도입할 필요가 없어짐
ex) c 언어 + 파이썬 결합 매뉴얼 주고 해봐라 -> 잘한다는거지

게다가 나아가서
- 파인튜닝의 필요성 없어짐
- 커스텀 모델 개발 수요를 엄청나게 긴 프롬프트로 치환해서 대응 가능
=> 거대 언어 모델과 언어 모델 어플리케이션을 서로 잘 분리하는 것이 가능해짐
- 응용 ai 서비스를 만들고 운영하는 것이 훨씬 쉬워짐





파인튜닝을 잘 하는 것이 중요하다고 생각했는데, 이번 세션을 들으면서 정말 그 중요성이 줄어들 수도 있겠다는 생각도 들었고 데이터를 공부하는 내가 이 분야에서 살아남을 수 있는 방향이 뭘까 고민하는 시간이 되었다. 유익했던 시간!