5월, 2025의 게시물 표시

[vLLM2RAG] - 대충 아키택처 설명하는 내용

이미지
 우리의 목표는 이미지를 세부적으로 분석하고 이미지에 대한 형식을 추천해주는 형식으로 구현하고자 한다.   Text 형식으로 제공 할수있는 LLM 특성상 해당 부분에 대해서는 많은 내용들이 적용되고있지만Image를 가지고 RAG를 구현하는 예시는 없다. 그래서 논문을 보고 다녔던 나는 vLLM이라는 개념이라는것을 알게 되고 해당 기술을 가지고 RAG를 구현하는데 단순하게 설계되지 않을까라는 생각이 들었다.   단, 단점이 Text처럼 임베딩으로 관리되는 형식이 아닌 Vision Encoding를 하지 않고 Text로 변환된 Keyword를 사용하는것이다.   시간은 2주. 구현하는데 오랜 시간이 걸리진 않았다.   내가 구현한 아키택쳐는 이와 같다.  단순히 나는 RAG가 검색엔진으로 생각하고 구현하기 시작했다. 근데 알고보니깐 RAG는 LLM이 최종적으로 붙는 형식이였다. "씁.... 조졌네"   더 강력하게 구현할게 아닌 시스템적으로 적용되는 범위를 더 넒히고 싶은 문제가 적용이 되지만 의미가 없을것 같다.   쨌든 이렇게 구현하기 시작했다.   Model은 이와 같다. 제작자 모델 명 규모 오픈된 코드 또는 문서 논문 Meta (구 Facebook) LLaMA 3.2 11B https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct https://arxiv.org/abs/2204.05149 Google PaliGemma ? https://ai.google.dev/gemma/docs/paligemma?hl=ko https://arxiv.org/abs/2407.07726 OpenAI GPT 4v ? https://github.com/yunwoong7/GPT-4V-Examples https://cdn.openai.com/papers/GPTV_System_Card.pdf 위스콘신-매디슨 대학교, 마이크로소프트 리서치, 컬럼비아 대...