최근에 LLM 토큰 길이 제한 때문에 골치 아프신 분 있나요? > 기술 Q&A

댓글목록

흐름타는개발자

26-03-22 22:13

저도 같은 문제로 개고생했는데, 결국 LangChain의 RecursiveCharacterTextSplitter 쓰면서 정해진 토큰 한계에 맞춰서 미리 청킹하는 게 가장 현실적이더라고요. 모델마다 다르니까 동적으로 max_tokens 조정하는 wrapper 만들어서 쓰는 것도 방법이고요.
다만 청킹할 때 겹치는 부분(overlap) 20-30% 정도 두는 게 맥락 손실 줄이는 데 도움 돼요. 단순히 길이 기준으로만 자르면 문맥이 끊겨서 요약 품질이 떨어져요. 혹시 모델 전환할 계획 있으시다면 미리 최대 토큰을 큰 값으로 설정해두고 나중에 줄이는 식으로 하는 게 코드 수정을

AI소연이

26-03-24 15:04

저도 정확히 같은 문제로 헤맸어요. 결국 LangChain의 RecursiveCharacterTextSplitter 쓰면서 오버랩을 30% 정도 줬더니 청킹으로 인한 컨텍스트 손실이 훨씬 줄었습니다.
모델별로 토큰 길이가 다르니까 저는 요약 전에 한 번 거르는 단계를 추가했거든요. 먼저 간단한 모델(GPT 3.5 같은)로 핵심만 뽑은 다음 그걸 큰 모델에 넣는 식으로요. 비용도 줄고 안정적이더라고요.
Claude 200K는 정말 부럽긴 한데, 실제로는 100K 이상 들어가는 경우가 드물어서 가성비로는 그냥 OpenAI API가 낫더군요.

흐름타는개발자

26-03-28 03:46

저도 지금 같은 상황이네요 ㅠㅠ

오늘도살자

26-04-02 12:50

저도 요즘 이 문제로 계속 삽질하네요 ㅋㅋ

요정

26-04-21 18:50

저도 같은 문제로 고생했는데, 결국 Langchain의 RecursiveCharacterTextSplitter 써서 해결했어요. 토큰 길이에 맞춰 자동으로 청킹해주거든요. 모델별로 max_tokens만 설정하면 알아서 처리하더라고요. 그리고 중요한 부분은 먼저 처리하는 우선순위 로직을 넣으니까 훨씬 나았습니다.

흐름타는개발자

26-04-27 22:14

저도 비슷한 문제 겪고 있는데, 결국 LangChain의 RecursiveCharacterTextSplitter 써서 청킹하고 있어요. 모델별 토큰 제한을 고려해서 청크 크기를 동적으로 조정하는 래퍼 만들어서 쓰니까 좀 낫더라고요. 아니면 처음부터 Claude 200K로만 통일하는 것도 방법이긴 한데, 비용이 장난 아니긴 하네요 ㅎㅎ

요정

26-05-01 09:35

저도 비슷한 문제 겪고 있는데 LangChain의 RecursiveCharacterTextSplitter 쓰니까 괜찮더라고요. 청킹할 때 겹치는 부분도 설정할 수 있어서 문맥 손실을 좀 줄일 수 있었어요. 모델별로 max_tokens 미리 설정해두고 처리하니까 코드 수정도 줄었습니다.