1. 벡터 모델(임베딩 모델) 생성
-
데이터 전처리
-
원시 데이터를 정제 및 형식화 (결측값 처리, 불필요한 열 제거 등).
-
예시: 텍스트라면 소문자화, 특수문자 제거, 토큰화 등.
-
-
특성 추출(피처 벡터화) 및 임베딩 모델 학습
-
텍스트의 경우: TF-IDF, Word2Vec, BERT 등 사용.
-
예시 코드 (Python, HuggingFace Transformers):
pythonfrom transformers import AutoTokenizer, AutoModel
import torch
# 임베딩 모델 로드 (예시: Sentence-BERT)
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
# 텍스트 임베딩 생성
inputs = tokenizer("예시 문장입니다.", return_tensors="pt")
with torch.no_grad():
embeddings = model(**inputs).last_hidden_state.mean(dim=1)
-
임베딩 결과를
.pt,.npy,.csv등 파일로 저장.
-
-
로컬 모델 저장
-
학습된 모델 파일 또는 사전학습 임베딩 모델 파일을 로컬 폴더에 저장.
-
2. MSTY 어플리케이션에서 모델 로드
Msty는 로컬·오픈소스 AI 모델을 쉽게 관리할 수 있는 데스크톱 앱입니다. 다음 단계에 따라 임베딩/벡터 모델을 활용할 수 있습니다.
(1) MSTY 설치 및 초기 설정
-
공식 웹사이트에서 본인 OS에 맞는 Msty 앱 설치
다운로드 및 설치는 일반적으로 자동 설치 프로그램을 실행하면 됩니다.
-
앱 실행 후, 첫 화면에서 ‘SETUP LOCAL AI’ 선택
로컬 모델을 운영하려면 이 옵션을 클릭하며, 초기에는 Gemma, Llama, DeepSeek, Qwen3 등 다양한 모델 선택 가능.
온라인에서 모델찾기… Model Hub에서 조회하여 LG의 엑사온(exaone3.5)을 선택 설치할 수 있다.
(2) 임베딩 모델(벡터 모델) 로드 및 지식 스택 구성
-
Local AI 또는 Knowledge Stack(지식 스택) 메뉴 이동
벡터/임베딩 기반 RAG를 위해 Knowledge Stack에서 원하는 모델을 선택할 수 있습니다.
-
“Add your first knowledge stack” 클릭
-
Knowledge Stack은 PDF, CSV, JSON 등 다양한 데이터 파일을 추가하여 AI가 해당 자료에서 정보를 추출할 수 있도록 함.
-
임베딩 모델은 Snowflake Arctic Embed 등 권장 모델 선택 가능.
-
-
명령어/설정 과정
-
실제로 Msty 내에서 복잡한 명령어 입력 없이, 대부분 클릭 방식으로 진행됨.
-
임베딩 모델 직접 업로드 필요 시:
-
“모델 매니저” 또는 “모델 라이브러리”에서 [임베딩] 카테고리 선택
-
또는 원하는 모델 이름을 검색 후 다운로드
-
-
외부에서 생성한 커스텀 임베딩 모델이나 파일을 추가할 경우, Knowledge Stack 내 ‘Add Files’(파일 추가) 기능 사용
-
-
파일 추가 및 임베딩 진행
-
PDF, CSV 등의 자료를 Knowledge Stack에 드래그&드롭 또는 ‘파일 선택’으로 추가
-
‘임베딩 시작’(Start Embedding) 버튼 클릭 시, 임베딩 모델로 자동 변환
이 과정은 별도의 CLI 명령보다 GUI 기반으로 이루어짐.
-
3. 모델 선택 및 사용
-
모델 설정
-
상단 메뉴나 좌측 ‘Model Selector’(모델 선택기)에서 임베딩 모델 지정
-
카테고리: [임베딩] 으로 설정된 모델은 벡터 기반 검색 및 지식확장에 사용됨.
-
-
모델 핀(Pin) 기능
-
자주 사용하는 모델을 상단에 고정하여 빠르게 선택 가능
-
모델명 옆 ‘Pin’ 아이콘 클릭
-
-
API 연동(선택)
-
OpenAI, Gemini 등 외부 대형 서비스 API를 추가하면, 클라우드 모델도 선택 사용 가능
-
참고: 명령어 vs. GUI
-
대부분의 과정이 GUI 기반이므로 별도로 터미널에서 명령어나 config 파일 편집을 필요로 하지 않음.
-
다만, 임베딩 모델을 외부에서 직접 생성할 땐 Python, HuggingFace Transformers, scikit-learn 등에서 제공하는 커맨드/스크립트를 활용.
워크플로우 요약
-
데이터 준비 및 임베딩 모델 생성/저장
-
Msty 앱 설치 및 실행
-
Knowledge Stack(지식 스택)에 모델 및 자료 ‘추가’
-
파일 임베딩 자동 적용
-
모델 선택 및 실제 대화/검색에 활용
Msty의 핵심은 마우스 클릭 몇 번으로 임베딩 모델 관리, 데이터 Knowledge Stack 구성, 벡터 모델 로드 모두가 가능하다는 점에 있습니다.
참고로, 모델 생성/임베딩 데이터 생성은 Python 등의 외부 환경에서, 로드와 활용은 Msty에서 주로 이루어집니다.
복잡한 설정이나 명령어 입력 없이 누구나 쉽게 사용할 수 있도록 설계된 점이 최대 강점입니다.