아티클 제목, 내용

Deskroom 홈페이지

데스크룸이 기업을 이해하는 LLM을 만드는 방법 2: Fine-tuning

Platform

2025. 9. 24.

공유하기

deskroom-supports-fine-tuning-machine-learning-models-for-enterprise

시리즈1편. 해석되지 않은 데이터는 아무 것도 아니다.
시리즈2편. 조직 데이터를 이해하는 LLM 만들기의 시작점: 온톨로지(Ontology)
시리즈3편. 데스크룸이 기업을 이해하는 LLM을 만드는 방법 1: Prompt Engineering

시리즈3편에서 Prompt Engineering을 통해 LLM을 우리 조직에 최적화하는 방법에 대해서 알아봤습니다. 일반적인 도메인에 속한 기업들은 Prompt Engineering만으로도 조직에 최적화된 LLM을 생성할 수 있습니다. 하지만 고도로 특화된 도메인과 복잡도가 높은 문제를 가진 기업이라면, Fine-tuning 기법이 우리 조직에 가장 알맞은 LLM을 만드는 방법이 될 수 있습니다.

이번 글에서는 LLM이 일반적이지 않은 도메인 조직의 데이터를 이해하지 못하는 구조적 이유를 설명하고, 데스크룸이 Fine-tuning을 통해 이 문제를 어떻게 해결하고 있는지 소개합니다.

Fine-tuning이란?

Fine-tuning이란 기본적인 능력을 보유하고 있는 LLM에게 특정 조직의 내부 데이터를 추가로 학습시켜 조직에 대한 이해도를 크게 향상시키는 기술입니다.

LLM이 조직의 문맥을 제대로 이해하려면, 조직 내부에서 데이터를 어떻게 해석하는지를 명시적으로 가르쳐야 합니다. 이를 가능하게 만드는 가장 직접적이고 강력한 방법이 Fine-tuning, 즉 우리 조직의 데이터를 LLM 모델에게 직접 학습시키는 방식입니다.

LLM이 특수한 도메인을 이해하지 못하는 이유

많은 기업들이 ChatGPT와 같은 범용 LLM에 조직의 용어와 데이터를 사용해 질문하고 원하는 결과물을 얻기를 기대합니다. 하지만 특정 조직이 사용하는 용어와 데이터로 질문을 입력하면, LLM모델은 엉뚱한 답을 하거나 질문의 핵심을 놓칩니다.

이유는 단순합니다. LLM은 조직의 데이터를 학습한 적이 없기 때문입니다. 정확히 말하면, 학습할 수 있는 기회조차 없었습니다.

대형 언어 모델은 뉴스, 위키, 논문, 블로그, 코드처럼 공개된 웹 기반 자료만을 학습합니다. 그리고 그 과정에서 ‘A라는 단어 다음에는 B가 나올 확률이 높다.’ 같은 언어 통계적 패턴을 학습합니다.

하지만 특수한 도메인에 있는 기업일수록 조직에서 실제로 쓰이는 언어와 데이터는 공개되어 있지 않을뿐더러 통계적 패턴의 정규분포 밖에 있습니다. 예를 들어, 설계 변경 요청서, 장비 점검 로그, 시공 품질 리포트 같은 문서는 인터넷에 존재하지 않으며, 있더라도 극히 소수거나 중요한 내용이 빠져있을 확률이 높습니다. 이런 문서들의 해석 기준은 오직 조직 내부에서만 유효한데 LLM은 그 기준들을 본 적이 없으니 당연히 우리 조직의 언어로 작성된 질문을 이해하지 못합니다.

인간은 추론하고, LLM은 반복한다.

위와 같은 일이 일어나는 이유는 인간과 LLM이 하나의 문장을 보고 사고하는 방식이 근본적으로 다르기 때문입니다. 인간은 제한된 정보만으로도 앞뒤 문맥과 상황을 추론할 수 있습니다. 예를 들어 건설 프로젝트 현장 노동자가 아래와 같은 문장을 말했다고 해보겠습니다.

“파일 항타 깊이가 설계값보다 낮게 나와서 오늘 철근 배근 못 들어갑니다.”

현장의 프로젝트 매니저는 이 한 문장만으로 아래처럼 문장에 들어 있지 않은 상황과 문맥을 이해하고 이후에 필요한 조치까지 생각할 수 있습니다.

“지반 상태 불량 → 구조 안정성 위험 → 공정 지연 → 납기 재조정 필요”

하지만 LLM은 다릅니다. 하나의 문장에서 앞뒤의 연결고리를 과거에 본 적 없다면, 문맥도 만들어내지 못합니다. LLM은 추론할 수 없고, 반복적으로 학습하기 때문입니다.

LLM의 한계가 뚜렷하게 드러나는 경우

위에서 살펴본 LLM의 한계는 아래 두 가지 조건에서 더욱 뚜렷해집니다.

1. 특수한 도메인: 학습 데이터의 절대량이 부족한 경우

법률, 의료, 건설, 반도체 등 고도로 특화된 산업에서는 일상 언어와 완전히 다른 용어와 문맥이 쓰입니다. 아래 문장이 하나의 예시입니다.

예시: “DSA에서 PR 잔사 감지돼서 노광기 다시 투입했고, Logsheet는 수동 갱신했습니다.”

해석: 반도체 미세패턴 공정에 쓰이는 기술, DSA(Directed Self-Assembly 자가조립 유도 공정) 중 원래는 완전히 제거되어야 할 PR(포토레지스트)이 남아 있어 노광(패턴 새김) 작업을 반복했고 공정 단계별 작업 내역을 기록하는 Logsheet(작업 일지)에 수동으로 기록했다는 의미

이 문장을 해석 없이 읽었을 때 동종 업계에 근무하는 사람이 아니라면 일종의 암호처럼 보였을 겁니다. 하지만 해당 도메인에서 근무하는 구성원 사이에서는 특별할 것 없고 정확한 상황 보고입니다.

ChatGPT 같은 범용 LLM은 예시에 쓰인 단어나, 단어를 사용한 문장을 볼 일이 극히 드물기 때문에 문장을 올바로 해석하지 못합니다. 줄임말, 용어, 문서 포맷이 복잡해질수록 학습 데이터는 부족하고 모델의 정확도는 낮아집니다.

2. 보안 영역의 데이터: 외부에 존재하지 않는 경우

특수한 도메인이 아니더라도 내부에만 존재하는 조직 데이터도 많습니다. 설계 변경 이력, 고장 로그, 수율 리포트, 불량 코드 등은 기업의 핵심 자산이고 외부로 유출되었을 때 문제가 될 수 있는 자료들이기 때문에 LLM이 학습할 수 있는 형태로 외부에 존재하지 않습니다.

예시: “4층 슬래브 콘크리트 타설 중 레미콘 배합비 이탈 확인, 구조계에 보고 후 공사 중지.”

이 문장은 공사 현장에 문제가 발생해서 공사를 중지했다는 사실을 담고 있습니다. 1번에서 살펴본 예시에 비해 어려운 도메인 정보를 담고 있지는 않지만 외부에 누출되면 큰 리스크를 동반할 수 있는 정보입니다.

LLM은 이런 조직 내부의 민감한 정보를 사전에 학습할 기회가 없었기 때문에 이런 상황에 대한 판단도, 이후에 필요한 액션도 제안하기 어렵습니다.

LLM의 한계를 극복하기 위한 데스크룸의 접근

LLM은 본질적으로 많이 본 것일수록 더 정확하게 재현할 수 있습니다. 하지만 도메인이 특수하거나, 데이터가 보안상 내부에만 있다면 LLM은 우리 조직을 제대로 이해할 수 없습니다. 이때 가장 좋은 방법은 LLM에게 ‘우리 조직의 데이터를 직접 보여주는 것’입니다.

Fine-tuning은 사전 학습된 LLM을 조직 고유의 데이터에 맞게 미세 조정하는 과정입니다. 기존 일반 언어 능력을 유지하면서 도메인 특유의 언어·판단 기준·표현 방식을 모델에 추가로 주입합니다.

예를 들어, 반도체 기업에서는 아래와 같은 표현들이 자주 쓰입니다.

PR 벗김 불량
EQ downtime
PI 소진 전 재고 체크

이런 표현은 단순히 단어의 조합처럼 보이지만 조합이 가지는 의미는 해당 조직의 컨텍스트에서만 유효합니다.

그래서 데스크룸은 아래 예시처럼 문장 단위가 아닌, 업무 단위, 흐름 단위로 LLM 학습을 구성합니다.

예시: 설비 이상 알림 → 점검 내역 → 대응 이력 → 공정 재투입

LLM에 흐름 전체를 학습시킴으로써, LLM이 하나하나의 단어가 아닌 업무의 맥락을 이해하도록 만듭니다. 이렇게 Fine-tuning된 LLM은 더 이상 범용 모델이 아닙니다. ChatGPT처럼 넓은 지식을 포괄하진 않더라도, 우리 조직의 언어와 맥락에는 훨씬 더 정확히 반응하는 커스텀 LLM이 됩니다.

특수 도메인과 보안이 중요한 조직에 최적인 Fine-tuning

Fine-tuning은 모든 기업에 필요한 방식은 아닙니다. 하지만 도메인이 매우 특수하거나, 보안이 중요한 조직이라면 가장 명확하고 안전한 방법입니다.

LLM은 기본적으로 우리 조직을 모릅니다. 하지만 우리가 무엇을 중요하게 생각하고, 어떤 기준으로 판단하는지 알려주면, 그 판단을 매우 효율적으로 반복할 수 있습니다.

그리고 그것이, 데스크룸이 Fine-tuning으로 조직의 언어와 맥락, 판단 기준을 LLM에게 주입하는 이유입니다.

Next. 데스크룸이 기업을 이해하는 LLM을 만드는 방법 3: RAG

다음 글에서는 데스크룸이 기업을 이해하는 LLM을 만드는 세 번째 방법인 RAG를 어떻게 활용하는지, 실질적으로 어떤 기업에게 이 방식이 어울리는지 얘기해 보겠습니다.

AX Case Study 웨비나에 초대합니다 (신청 링크)

AI를 기반으로 업무 방식과 문화를 바꾸는 AX. 어디서부터 시작해야할지 막막하지 않으신가요?

데스크룸 박경호 대표가 직접 AX/DT 조직을 위한 실제 구현 방법을 소개합니다. 단순한 대시보드나 보고서가 아니라, 온톨로지 기반 데이터 표준화부터 AI·ML 모델을 활용한 자동화까지, 실제 기업 환경에서 바로 적용할 수 있는 현실 중심 인사이트를 들어보세요.

Platform

2025. 11. 2.

AI로 의사결정을 자동화하는 방법 2: Assist

사람의 판단을 보조하는 데스크룸의 두 가지 Assist 기능

deskroom-supports-automating-decisions-with-analytics

Platform

2025. 10. 8.

AI로 의사결정을 자동화하는 방법 1: Analytics

AI가 해석한 데이터를 분석하는 네 가지 관점

데스크룸이 기업을 이해하는 LLM을 만드는 방법 2: Fine-tuning

Platform

2025. 9. 24.

공유하기

시리즈1편. 해석되지 않은 데이터는 아무 것도 아니다.
시리즈2편. 조직 데이터를 이해하는 LLM 만들기의 시작점: 온톨로지(Ontology)
시리즈3편. 데스크룸이 기업을 이해하는 LLM을 만드는 방법 1: Prompt Engineering

시리즈3편에서 Prompt Engineering을 통해 LLM을 우리 조직에 최적화하는 방법에 대해서 알아봤습니다. 일반적인 도메인에 속한 기업들은 Prompt Engineering만으로도 조직에 최적화된 LLM을 생성할 수 있습니다. 하지만 고도로 특화된 도메인과 복잡도가 높은 문제를 가진 기업이라면, Fine-tuning 기법이 우리 조직에 가장 알맞은 LLM을 만드는 방법이 될 수 있습니다.

이번 글에서는 LLM이 일반적이지 않은 도메인 조직의 데이터를 이해하지 못하는 구조적 이유를 설명하고, 데스크룸이 Fine-tuning을 통해 이 문제를 어떻게 해결하고 있는지 소개합니다.

Fine-tuning이란?

Fine-tuning이란 기본적인 능력을 보유하고 있는 LLM에게 특정 조직의 내부 데이터를 추가로 학습시켜 조직에 대한 이해도를 크게 향상시키는 기술입니다.

LLM이 조직의 문맥을 제대로 이해하려면, 조직 내부에서 데이터를 어떻게 해석하는지를 명시적으로 가르쳐야 합니다. 이를 가능하게 만드는 가장 직접적이고 강력한 방법이 Fine-tuning, 즉 우리 조직의 데이터를 LLM 모델에게 직접 학습시키는 방식입니다.

LLM이 특수한 도메인을 이해하지 못하는 이유

많은 기업들이 ChatGPT와 같은 범용 LLM에 조직의 용어와 데이터를 사용해 질문하고 원하는 결과물을 얻기를 기대합니다. 하지만 특정 조직이 사용하는 용어와 데이터로 질문을 입력하면, LLM모델은 엉뚱한 답을 하거나 질문의 핵심을 놓칩니다.

이유는 단순합니다. LLM은 조직의 데이터를 학습한 적이 없기 때문입니다. 정확히 말하면, 학습할 수 있는 기회조차 없었습니다.

대형 언어 모델은 뉴스, 위키, 논문, 블로그, 코드처럼 공개된 웹 기반 자료만을 학습합니다. 그리고 그 과정에서 ‘A라는 단어 다음에는 B가 나올 확률이 높다.’ 같은 언어 통계적 패턴을 학습합니다.

하지만 특수한 도메인에 있는 기업일수록 조직에서 실제로 쓰이는 언어와 데이터는 공개되어 있지 않을뿐더러 통계적 패턴의 정규분포 밖에 있습니다. 예를 들어, 설계 변경 요청서, 장비 점검 로그, 시공 품질 리포트 같은 문서는 인터넷에 존재하지 않으며, 있더라도 극히 소수거나 중요한 내용이 빠져있을 확률이 높습니다. 이런 문서들의 해석 기준은 오직 조직 내부에서만 유효한데 LLM은 그 기준들을 본 적이 없으니 당연히 우리 조직의 언어로 작성된 질문을 이해하지 못합니다.

인간은 추론하고, LLM은 반복한다.

위와 같은 일이 일어나는 이유는 인간과 LLM이 하나의 문장을 보고 사고하는 방식이 근본적으로 다르기 때문입니다. 인간은 제한된 정보만으로도 앞뒤 문맥과 상황을 추론할 수 있습니다. 예를 들어 건설 프로젝트 현장 노동자가 아래와 같은 문장을 말했다고 해보겠습니다.

“파일 항타 깊이가 설계값보다 낮게 나와서 오늘 철근 배근 못 들어갑니다.”

현장의 프로젝트 매니저는 이 한 문장만으로 아래처럼 문장에 들어 있지 않은 상황과 문맥을 이해하고 이후에 필요한 조치까지 생각할 수 있습니다.

“지반 상태 불량 → 구조 안정성 위험 → 공정 지연 → 납기 재조정 필요”

하지만 LLM은 다릅니다. 하나의 문장에서 앞뒤의 연결고리를 과거에 본 적 없다면, 문맥도 만들어내지 못합니다. LLM은 추론할 수 없고, 반복적으로 학습하기 때문입니다.