Gensyn 테스트넷이 온라인 상태입니다. AI 훈련을 보다 효율적이고 분산화하려면 어떻게 해야 할까?

저자: Zen, PANews

AI는 오늘날 암호화폐 산업에서 가장 주목을 받는 부문입니다. 그 중에서도 a16z가 주도하고 총 자금 조달 규모가 5,000만 달러에 달하는 분산형 AI 컴퓨팅 네트워크인 Gensyn은 의심할 여지 없이 경쟁력 있는 프로젝트입니다. 최근 Gensyn은 공식적으로 테스트 네트워크를 출시했습니다. 원래 계획보다 1년 이상 늦어졌지만, 테스트 네트워크를 출시하면서 마침내 새로운 단계에 접어들게 되었습니다.

Gensyn 테스트넷은 머신 러닝을 위해 특별히 구축된 맞춤형 Ethereum Rollup으로, 오프체인 실행, 검증 및 통신 프레임워크를 통합하여 지속적인 신원, 참여 추적, 귀속 유지, 지불, 원격 실행 조정, 신뢰할 수 없는 검증, 교육 프로세스 기록 및 대규모 교육 작업을 위한 크라우드 펀딩과 같은 주요 기능을 갖춘 분산형 AI 시스템을 제공하는 것을 목표로 합니다.

테스트넷의 첫 번째 단계는 RL Swarm 내 참여 추적에 초점을 맞춥니다. RL Swarm은 노드를 온체인 ID에 연결하여 참여하는 각 노드의 기여도가 정확하게 기록되도록 보장하는 협력적 강화 학습 사후 훈련용 애플리케이션입니다.

RL Swarm: 핵심 기능 및 협업 교육

Gensyn 테스트넷에서 RL Swarm은 핵심 애플리케이션으로서 분산형 네트워크를 기반으로 구축된 모델 협력 훈련 시스템입니다. 단일 모델에 대한 기존의 독립적인 훈련과는 달리 RL Swarm은 여러 모델이 네트워크에서 서로 통신하고, 비판하고, 개선할 수 있도록 하여 전체 성능을 공동으로 개선합니다. 핵심 개념은 "집단 지능"에 있습니다. 즉, 노드 모델 간의 협업과 피드백을 통해 더욱 효율적인 교육 결과를 얻는 것입니다.

DeepSeek-R1과 같은 모델이 추론 학습을 수행할 때, 자기 비판을 통해 추론 성능을 반복적으로 개선할 수 있는 반면, RL Swarm은 이 메커니즘을 여러 모델 그룹으로 확장하여 "많은 사람이 하면 일이 쉬워진다"는 효과를 달성한다는 것을 쉽게 이해할 수 있습니다.

RL Swarm 시스템을 기반으로 하는 이 모델은 자체 피드백에만 의존하는 것이 아니라, 다른 모델의 성능을 관찰하고 평가하여 자체 단점을 파악하고 최적화합니다. Swarm에 참여하는 각 모델 노드는 3단계 프로세스에 참여합니다. 먼저, 독립적으로 문제를 완료하고 아이디어와 답변을 출력합니다. 그런 다음 다른 노드의 답변을 확인하고 피드백을 제공합니다. 마지막으로 모델은 가장 좋은 솔루션에 투표하고 그에 따라 출력을 수정합니다. 이러한 상승효과 메커니즘은 각 모델의 성능을 향상시킬 뿐만 아니라, 전체 그룹 모델의 진화도 촉진합니다. Swarm에 가입한 모델은 가입을 마친 후에도 향상된 로컬 가중치를 유지하여 실질적인 이점을 얻을 수 있습니다.

Gensyn 테스트넷이 온라인 상태입니다. AI 훈련을 보다 효율적이고 분산화하려면 어떻게 해야 할까?

또한 Gensyn은 RL Swarm의 코드를 오픈 소스로 공개하여 누구나 허가 없이 노드를 실행하고 기존 Swarm을 시작하거나 참여할 수 있도록 했습니다. Swarm의 기본 통신은 Hivemind가 제공하는 가십 프로토콜을 사용하는데, 이는 모델 간의 분산형 메시지 전달과 학습 신호 공유를 지원합니다. 가정용 노트북이든 클라우드 GPU이든, RL Swarm 노드에 가입하면 협업적 훈련에 참여할 수 있습니다.

인프라의 3대 기둥: 실행, 커뮤니케이션, 검증

현재 RL Swarm은 최종 제품 형태가 아닌 대규모의 확장 가능한 머신 러닝 방법을 보여주는 실험적 데모일 뿐입니다. 지난 4년 동안 Gensyn의 핵심 작업은 실제로 기반 인프라를 구축하는 것이었습니다. 테스트 네트워크가 출시된 후 v0.1 단계에 진입하여 이제 실제 운영에 투입될 수 있습니다. 공식 소개에 따르면 Gensyn의 전반적인 아키텍처는 실행, 통신, 검증의 세 부분으로 나뉩니다.

실행: 일관성 및 분산 컴퓨팅

Gensyn은 미래의 머신 러닝이 더 이상 기존의 일체형 모델에 국한되지 않고, 전 세계의 여러 장치에 분산된 단편화된 매개변수로 구성될 것이라고 생각합니다. 이러한 목표를 달성하기 위해 Gensyn 팀은 여러 장치에서 일관성을 보장하는 기본 실행 아키텍처를 개발했습니다. 핵심 기술은 다음과 같습니다.

  • 분산형 매개변수 저장 및 학습: 대규모 모델을 여러 개의 매개변수 블록으로 분할하고 이를 다양한 장치에 분산시킴으로써 Gensyn은 모델을 단편적으로 배포하고 단일 노드의 메모리 요구 사항을 줄입니다.
  • RL 사후 훈련: 연구에 따르면 모델이 그룹으로 협력하여 훈련을 받고, 서로 소통하고, 서로의 답변을 비판하면 전반적인 학습 효율성이 크게 향상됩니다. Gensyn은 RL Swarm을 사용하여 이 개념을 시연했으며, 이를 통해 그룹 토론에서 모델이 빠르게 개선되어 분산 실행의 효과성이 더욱 검증되었습니다.
  • 재현 가능한 연산자(RepOps): 서로 다른 하드웨어(예: Nvidia A100 및 H100)가 정확히 동일한 계산 결과를 생성할 수 있도록 하기 위해 Gensyn은 부동 소수점 연산의 실행 순서를 고정하여 플랫폼 간 비트별 재현을 구현하는 RepOps 라이브러리를 개발했습니다.

커뮤니케이션: 효율적인 정보 교환

대규모 분산 학습 시나리오에서는 노드 간의 효율적인 통신이 매우 중요합니다. 기존의 데이터 병렬 방식은 통신 오버헤드를 어느 정도 줄일 수 있지만, 각 노드가 전체 모델을 저장해야 하기 때문에 메모리에 의해 확장성이 제한됩니다. 이를 위해 Gensyn은 새로운 솔루션을 제안했습니다.

  • SkipPipe – 동적 스킵 파이프라인 병렬 처리: SkipPipe 기술은 마이크로배치가 통과하는 컴퓨팅 계층을 동적으로 선택하여 기존 파이프라인의 일부 단계를 건너뛰어 불필요한 대기 시간을 줄입니다. 혁신적인 스케줄링 알고리즘은 각 경로의 가용성을 실시간으로 평가할 수 있어 노드의 유휴 시간을 줄일 뿐만 아니라 전반적인 학습 시간도 크게 단축시킵니다. 테스트 데이터에 따르면, 분산형 환경에서 SkipPipe는 훈련 시간을 약 55%까지 단축할 수 있으며, 일부 노드에 장애가 발생하는 경우에도 모델 성능은 약 7%만 감소합니다.
  • 통신 표준 및 노드 간 협업 Gensyn은 TCP/IP와 유사한 일련의 통신 프로토콜을 구축했습니다. 이를 통해 전 세계 참여자가 사용하는 장치에 관계없이 효율적이고 원활하게 데이터를 전송하고 정보를 교환할 수 있습니다. 이 개방형 표준은 분산형 협업 교육을 위한 견고한 네트워크 기반을 제공합니다.

검증: 신뢰와 보안 보장

신뢰가 필요하지 않은 분산 네트워크에서 각 참여자가 제출한 계산 결과가 진짜이고 유효한지 확인하는 방법은 주요 과제입니다. Gensyn은 모든 컴퓨팅 파워 공급업체가 저렴하고 효율적인 메커니즘을 통해 올바른 작업 결과를 제공하도록 보장하기 위해 전담 검증 프로토콜을 도입했습니다.

  • Verde 검증 프로토콜: Verde는 현대 머신 러닝을 위해 특별히 설계된 최초의 검증 시스템입니다. 이것의 핵심은 가벼운 분쟁 해결 메커니즘을 사용해 모델과 검증자 사이에 의견 불일치가 발생하는 학습 과정의 단계를 빠르게 찾아내는 것입니다. 전체 작업을 다시 실행해야 하는 기존의 검증 방법과 달리, Verde는 분쟁 작업만 다시 계산하면 되므로 검증 오버헤드를 크게 줄일 수 있습니다.
  • 심판 위임: 이 방법을 사용하면 공급업체의 출력에 문제가 있는 경우 검증자는 효율적인 분쟁 해결 게임을 통해 중립적인 중재자를 설득하여 적어도 하나의 정직한 노드가 있는 경우 전체 계산 결과의 정확성이 보장되도록 할 수 있습니다.
  • 중간 상태 저장 및 해시: 위의 검증 프로세스를 지원하기 위해 참가자는 전체 데이터 대신 일부 중간 교육 체크포인트만 저장하고 해시하면 됩니다. 이를 통해 리소스 사용량이 줄어들 뿐만 아니라 시스템의 확장성과 실시간 성능도 향상됩니다.