언어 모델
언어 토큰화
언어를 구성하는 최소 단위로 쪼개서 각 단위에 고유한 숫자를 부여한다.
컴퓨터가 인식하기 편한기준은 단어와 글자 사이정도
쪼갠 단위 = 토큰
언어 처리 모델
토큰을 이용해 유용한 정보를 추출하기위해 딥러닝을 사용하려면 어떻게 해야할까?
변하는 길이의 문장을 입력하기 위해 순환 신경망
사용
이미지 모델
훈련 데이터를 학습해서 랜덤값에서 예측한 결과가 이미지,
함축된 랜덤 정보를 생성하고자 하는 실제 정보로 변환
- 인코더 - 주어진 입력을 함축적 정보로 표현
- 디코더 - 함축된 정보를 다시 입력값으로 복원
VAE
입력값(학습된거)을 함축적 정보로 변환해서 노이즈랑 섞고 그걸 디코더로 이미지를 만들어낸다
Convolution
입력을 패치가 잘 돌면서 곱하고더하면서 특징 추출
확산
노이즈를 더하고 다시 빼면서 학습한다. 가장 좋다!
이미지생성모델 개선
그런데 이렇게 많이 연구해도 아직 구리다 그래서 인간-피드백을 통해 개선을 할수잇다!
두 같은 프롬프트를 만들고 더 나은거를 골라 학습시킨다. Gemini 1.5 flash로 자동화해서 77개 학습했다.
LLM 믿으면 안된다
약간 개선되긴 한것같다.
YOLOv8로 사물인식
영상 뽑았다
쉽지 않았다
소감
GPU가 중요한거같다.