저자: 고도
2012년, 세계 최대의 DRAM 메모리 제조업체가 파산했습니다.
일본 기업 엘피다는 한때 일본 반도체 산업의 자랑이었다. NEC, 히타치, 미쓰비시라는 3대 기업의 기술력을 등에 업고 있었지만, 정부 투자에도 불구하고 결국 살아남지 못했다.
4,300억 엔의 부채를 안고 파산보호를 신청한 이 회사는 이후 2,000억 엔에 미국의 한 회사에 인수되어 통합된 후 역사 속에서 완전히 사라졌다. 그 미국 회사가 바로 마이크론 테크놀로지였다.
인텔은 DRAM을 만들었다가 철수했고, 텍사스 인스트루먼트도 마찬가지였으며, 모토로라도 만들었다가 철수했습니다. 일본의 반도체 메모리 산업 전체는 20년도 채 안 되는 기간 동안 정점에서 붕괴했습니다. 그 자리를 한국이 이어받아 삼성과 SK하이닉스가 정부 보조금과 공격적인 가격 경쟁으로 시장을 장악하며 모든 경쟁사를 몰아냈습니다.
마이크론은 살아남아 오늘날 미국에서 첨단 메모리 칩을 대량 생산할 수 있는 유일한 회사가 되었습니다.
아이다호주 보이시에 본사를 둔 이 회사는 엔비디아와 TSMC의 그늘에 가려져 있습니다. 이 회사는 GPU를 설계하거나 로직 칩을 제조하지 않습니다.
하지만 인공지능이 전 세계의 컴퓨팅 능력에 대한 갈증을 극한까지 몰아붙이면서, 수십 년 동안 무시되어 왔던 물리적 병목 현상이 갑자기 불가피해졌습니다. 바로 컴퓨팅 장치가 데이터를 기다리는 시간이 실제 계산 시간보다 길어진다는 점입니다.
이 문제는 소프트웨어적인 해결책이 없고, 오직 하드웨어적인 해결책만 존재합니다. 그리고 그 하드웨어적인 해결책은 마이크론이 40년 동안 연구해 온 것입니다.
I. 인공지능 컴퓨팅의 물리적 및 시스템적 한계
기억의 벽에 대해 다시 이야기해 봅시다.
현재의 폰 노이만 아키텍처에서는 GPU 또는 TPU 연산 장치와 메인 메모리가 물리적 회로 수준에서 서로 독립적입니다.
컴퓨팅 장치에는 온칩 캐시로 소량의 SRAM(정적 랜덤 액세스 메모리)이 포함되어 있습니다.
모델 가중치와 입력 데이터는 주로 오프칩 DRAM(동적 랜덤 액세스 메모리)에 저장됩니다.
데이터는 중간층과 같은 물리적 구조를 통해 전기 신호 형태로 두 장치 간에 전송되어야 합니다.
700억 개의 매개변수를 가진 대규모 언어 모델을 예로 들면, 가중치 데이터만 해도 FP16 정밀도 기준으로 약 140GB의 물리적 메모리가 필요합니다.
현재 주류 고성능 AI 컴퓨팅 카드의 메모리 용량은 80GB에서 192GB 사이입니다. 이보다 약간 더 큰 모델은 실행을 위해 여러 개의 카드로 나누어 사용해야 합니다.
지난 10년간 칩의 연산 능력은 기하급수적으로 증가했습니다. 그러나 메모리 대역폭의 증가율은 물리적 핀 수, 신호 주파수 및 열 방출 한계에 의해 제한되어 연산 능력 증가율에 비해 훨씬 뒤처져 있습니다.
연산 속도가 메모리 공급 속도를 초과하면 연산 장치는 대기 상태로 전환되어 고가의 하드웨어 활용률이 크게 떨어집니다.
훈련과 추론
인공지능은 학습과 추론의 두 단계로 이루어집니다. 학습은 대규모 모델의 정확도를 향상시키는 과정으로 백그라운드에서 진행됩니다. 추론은 사용자가 소프트웨어를 사용할 때 결과를 생성하는 과정으로 포그라운드에서 진행됩니다.
훈련 과정은 대규모 병렬 처리가 특징입니다.
동일한 데이터 배치가 컴퓨팅 코어의 캐시에서 반복적으로 사용되므로 연산 강도가 매우 높아집니다. 시스템의 성능은 메모리보다는 컴퓨팅 속도에 의해 제한됩니다. 이는 NVIDIA의 컴퓨팅 성능 우위가 최대한 활용되는 연산 집약적인 시나리오입니다.
추론 단계는 완전히 다른 이야기입니다. 대규모 언어 모델은 텍스트를 생성하기 위해 자기회귀 메커니즘에 의존합니다.
매번 하나의 토큰만 출력되며, 이 토큰은 다음 단계의 입력으로 사용됩니다. 이전 어텐션 점수를 매번 다시 계산하는 것을 방지하기 위해 시스템은 GPU 메모리에 KV 캐시를 유지하여 과거 시퀀스의 키-값 텐서를 저장합니다.
컨텍스트 길이가 4096일 때, 단일 사용자 요청에는 약 1.34GB의 비디오 메모리가 필요합니다. 두 개의 A100 카드의 비디오 메모리 용량을 모델 무게 사용량에서 제외하면 KV 캐시에 약 20GB가 남는데, 이는 최대 약 14개의 동시 요청만 지원할 수 있습니다.
추론 단계에서는 연산 강도가 극히 낮고 시스템 성능은 전적으로 메모리 대역폭에 의해 제한되므로 메모리 집약적인 작업이 됩니다. 처리량 한계를 결정하는 진정한 요인은 HBM 물리적 전송 속도입니다.
에너지 소비. 오프칩 HBM에서 데이터를 읽는 데는 비트당 약 10~20 pJ가 소모되는 반면, 단일 FP16 부동 소수점 연산에는 약 0.1 pJ만 필요합니다. 데이터를 이동하는 데 소모되는 에너지는 연산 자체에 소모되는 에너지의 100~200배에 달합니다.
대규모 추론 시나리오에서 메모리 접근 패턴이 최적화되지 않으면 실제 논리 연산보다는 버스 전송에 데이터 센터의 전력이 대량으로 소모될 수 있습니다.
이것이 바로 마이크론이 HBM 기술을 지속적으로 발전시키는 물리적 원동력입니다.
II. 마이크론의 핵심 반도체 기술 분석
먼저, 마이크론 테크놀로지는 어떤 회사인가요?
마이크론은 설계, 제조, 패키징에 이르기까지 모든 과정을 자체적으로 처리하는 통합 디바이스 제조업체(IDM)입니다.
마이크론의 웨이퍼 제조 공장은 오직 메모리 칩만 생산합니다. CPU나 GPU는 만들지 않고, RAM과 플래시 메모리만 생산합니다.
제품 구조 측면에서 마이크론의 매출은 크게 세 부분으로 나눌 수 있는데, DRAM이 70% 이상, NAND가 20~30%, NOR 플래시 메모리가 그보다 적은 비중을 차지합니다.
DRAM은 우리에게 친숙한 메모리 스틱이고, NAND는 솔리드 스테이트 드라이브의 핵심 저장 매체이며, NOR은 주로 자동차 전자 장치 및 산업 장비에 숨겨져 부팅 코드를 빠르게 실행하는 역할을 담당합니다. 눈에 잘 띄지는 않지만 없어서는 안 될 중요한 부품입니다.
최종 시장 부문에서 마이크론은 데이터 센터 및 서버용 컴퓨팅 및 네트워킹, 스마트폰용 모바일, 기업용 스토리지용 솔리드 스테이트 드라이브, 자동차 및 산업용 애플리케이션용 임베디드 시스템 등 4개의 사업부를 운영하고 있습니다.
마이크론은 AI 공급망에서 어떤 역할을 하나요?
엔비디아는 GPU를 만들고, TSMC는 GPU를 제조하는데, 그렇다면 마이크론은 이 공급망에서 어디에 있을까요?
요약하자면, NVIDIA의 H100 및 B200 GPU는 TSMC에서 제조하며, 마이크론은 이 공정에 관여하지 않습니다. 하지만 대규모 모델을 실행할 수 있는 완벽한 가속기 카드는 단순히 컴퓨팅 코어만으로는 충분하지 않습니다. 앞서 설명했듯이 추론 과정에서 성능 병목 현상은 컴퓨팅 성능 자체가 아니라 메모리 대역폭에 있습니다.
따라서 엔비디아는 고대역폭 메모리(HBM)를 GPU 바로 옆에 긴밀하게 통합해야 합니다. 이 HBM은 마이크론(SK 하이닉스, 삼성 등)에서 제조되며, TSMC의 CoWoS 첨단 패키징 기술을 사용하여 GPU 로직 칩과 동일한 실리콘 인터포저에 고정되어 완전한 AI 컴퓨팅 모듈을 구성합니다.
마이크론은 핵심 부품 공급업체입니다. GPU는 두뇌이고, HBM은 두뇌와 밀접하게 연결된 초고속 데이터 채널입니다. 둘 다 없어서는 안 될 필수 요소입니다.
이러한 구조는 마이크론의 경쟁 구도가 엔비디아와 완전히 다르다는 것을 보여줍니다. 엔비디아는 아키텍처와 생태계를 기반으로 경쟁 우위를 확보하는 반면, 마이크론은 공정 기술과 적층형 패키징 기술의 지속적인 발전에 의존합니다.
HBM 대역폭 향상의 각 세대는 더욱 복잡한 TSV(Through Silicon Via) 공정과 더 높은 적층 레이어를 기반으로 이루어지기 때문에 진입 장벽이 상당히 높습니다.
DRAM: 컴퓨팅 성능 담론 이면에 숨겨진 인프라
인공지능 컴퓨팅 성능에 앞서, 더 근본적인 질문이 있습니다. 데이터는 어디에서 오며, 어떻게 컴퓨팅 코어에 도달하는가? 이 질문에 대한 답은 DRAM(동적 랜덤 액세스 메모리)입니다.
개인용 컴퓨터부터 시작해 봅시다.
DRAM은 기존 컴퓨터의 메인 메모리로, 속도 불일치 문제를 해결합니다.
하드 드라이브는 많은 데이터를 저장하지만 읽기 속도가 느립니다. CPU는 계산 속도는 빠르지만 데이터를 임시로 저장할 공간이 없습니다. 둘 사이에는 속도 차이가 세 자릿수나 됩니다. CPU가 하드 드라이브를 기다리는 것은 마치 고속도로에서 뒤따라가는 트랙터와 같습니다.
DRAM은 이 문제를 해결합니다. 사용자가 프로그램을 실행하면 운영 체제는 하드 드라이브에서 DRAM으로 코드와 데이터를 옮깁니다.
CPU는 주소 명령어를 DRAM으로 직접 전송하여 나노초 단위의 지연 시간과 수십 GB/s의 대역폭으로 데이터 읽기 및 쓰기 작업을 완료합니다. 운영 체제 커널, 백그라운드 프로세스의 상태, 그리고 실시간으로 실행되는 모든 것이 여기에 있습니다.
전원이 꺼지면 데이터가 손실되는데, 이것이 바로 "다이내믹"이라는 단어의 의미입니다. DRAM의 커패시터는 자연적으로 누설 전류가 발생하므로 데이터를 유지하려면 지속적인 리프레시가 필요합니다.
물리적 구조적 관점에서 볼 때, DRAM의 각 메모리 셀은 트랜지스터와 커패시터(1T1C)로 구성됩니다.
인공지능 시나리오에 진입하면 수요의 성격이 바뀝니다.
인공지능 컴퓨팅의 핵심은 CPU에서 GPU로 이동했습니다. DRAM 또한 진화하여 더 이상 마더보드에 꽂는 DDR 메모리 모듈이 아니라, TSV(Through-Silicon Via) 기술을 사용하여 여러 층의 다이를 수직으로 쌓아 GPU와 동일한 인터포저에 패키징한 고대역폭 HBM 메모리가 되었습니다.
DRAM에 대한 수요는 단순히 시스템 운영 요구 사항을 충족하는 것에서 컴퓨팅 성능 병목 현상을 해결하는 것으로 바뀌었습니다.
첫 번째 단계는 모델 가중치를 로드하는 것입니다. 대규모 모델의 매개변수는 행렬 형태로 물리적 메모리에 저장되며, 추론이 시작되기 전에 모든 매개변수가 컴퓨팅 코어에 가까운 HBM에 저장되어 있어야 합니다. 700억 개의 매개변수를 가진 모델의 경우, 가중치 자체만 해도 FP16 형식으로 약 140GB의 저장 공간이 필요합니다.
둘째로, KV 캐시의 동적 점유가 있습니다. 모델이 텍스트를 생성할 때, 출력하는 각 단어에 대해 이전의 모든 문맥을 참조합니다.
매번 재계산하는 것을 방지하기 위해 시스템은 비디오 메모리에 과거 데이터를 캐시합니다. 이를 KV 캐시라고 합니다.
컨텍스트가 길수록 캐시 크기가 커집니다. 모델 가중치를 제외하고 나면 두 개의 A100 GPU에서 남은 GPU 메모리는 십여 명의 사용자만 동시에 처리할 수 있을 뿐입니다. 이것이 수만 달러짜리 서버의 실제 동시 접속 한계입니다.
학습 과정에서는 계산 비용이 훨씬 더 커집니다. 학습 중에는 모델 매개변수뿐만 아니라 각 레이어의 중간 계산 결과도 저장해야 하는데, 이는 역전파 과정에서 가중치 업데이트를 용이하게 하기 위함입니다.
일반적으로 사용되는 Adam 옵티마이저는 각 파라미터에 대해 데이터를 두 개 더 복사하여 저장합니다. 따라서 학습 중에 사용되는 GPU 메모리는 추론 중에 사용되는 메모리의 3~4배에 달하는 경우가 많습니다.
이로써 우리는 다시 메모리 병목 현상 문제로 돌아가게 됩니다. GPU 코어의 연산 능력은 메모리 대역폭 증가 속도보다 훨씬 빠르게 성장하고 있습니다. 추론 단계에서의 연산 강도는 극히 낮고, GPU는 상당한 시간을 데이터 대기 상태로 보내게 됩니다.
HBM의 각 세대별 대역폭 증가는 AI 추론 서버가 지원할 수 있는 실제 처리량의 상한선을 직접적으로 결정합니다.
이것이 바로 AI 시대 DRAM의 핵심 가치이며, 마이크론이 HBM 연구 개발에 지속적으로 투자하는 근본적인 이유이기도 합니다.
마이크론은 3대 주요 업체 중 어느 정도 위치에 있습니까?
전 세계 DRAM 시장에서 삼성, SK하이닉스, 마이크론은 합쳐서 약 95%의 시장 점유율을 차지하고 있습니다. 하지만 이 세 회사는 완전히 다른 강점을 가지고 있습니다.
공정 발전 속도: 마이크론이 가장 빠릅니다.
반도체 제조에서 공정 노드(또는 기술 노드)는 집적 회로 내부의 미세한 물리적 구조의 특징적인 치수를 나타냅니다.
마이크론이 공정 개발에서 가장 빠른 속도를 자랑한다는 것은, DRAM 칩의 내부 물리적 구조를 소형화하고 단위 면적당 저장 밀도를 높이는 엔지니어링 기술 개발에서 삼성과 SK 하이닉스를 앞서고 있다는 것을 의미합니다.
즉, 하나의 웨이퍼에서 더 많은 칩을 생산할 수 있으므로 비트당 제조 비용이 절감되고 총 이익률이 향상됩니다.
마이크론은 1-알파에서 1-베타, 그리고 1-감마에 이르기까지 차세대 고밀도 DRAM의 양산을 발표하는 데 있어 일반적으로 가장 먼저 나서는 제조업체입니다.
삼성은 14nm 이하 공정에서 수율 병목 현상을 겪었고, 지난 두 세대 동안 제품 출시 속도가 크게 둔화되었습니다. SK 하이닉스의 공정 개발 속도는 마이크론과 거의 비슷하며, 두 회사는 같은 등급에 속합니다.
HBM: 하이닉스의 홈그라운드
마이크론의 강점은 제조 공정에 있지만, HBM 시장은 현재 SK 하이닉스의 영역입니다.
하이닉스는 HBM 시장 점유율 50% 이상을 차지하고 있으며, 엔비디아의 최고급 GPU에 대한 독점적인 초기 공급업체입니다. 하이닉스의 핵심 기술적 우위는 다층 DRAM 다이 적층 과정에서 탁월한 열 방출 및 수율 제어를 제공하는 MR-MUF 패키징 공정에 있습니다.
마이크론은 후발 주자였습니다. HBM3를 건너뛰고 바로 HBM3E를 출시하여 에너지 효율성이라는 이점을 활용해 엔비디아의 공급망에 진입했습니다. 그러나 마이크론은 다층 적층 구조로 제조가 더 어려운 TC-NCF 패키징을 사용하기 때문에 SK 하이닉스에 비해 전체 생산 능력과 시장 점유율에서 상당한 격차를 보이고 있습니다.
삼성의 경우는 상황이 다릅니다. HBM3와 HBM3E 출시 당시, 삼성 제품은 발열 및 전력 소비 제어 문제로 엔비디아의 테스트를 제때 통과하지 못해 AI 메모리 시장의 절정기를 놓쳤습니다. 현재 삼성은 HBM4 출시를 통해 재기를 노리고 있습니다.
에너지 효율: 마이크론의 차별화된 접근 방식
마이크론의 HBM 시장 점유율은 하이닉스에 뒤처지지만, 전력 소비 측면에서 차별화를 꾀하고 있습니다.
공개된 테스트 데이터에 따르면 마이크론 HBM은 동일한 데이터 대역폭을 제공하면서 경쟁 제품보다 전력을 20~30% 적게 소비합니다. 단일 GPU에서는 이 수치가 크지 않아 보일 수 있지만, 수만 대의 GPU가 배포된 데이터 센터에서는 전기 요금에 직접적인 영향을 미칩니다.
현재 AI 데이터 센터의 전력 공급 및 열 방출은 확장의 병목 현상이 되고 있으며, 에너지 효율성 지표는 구매 결정에 점점 더 실질적인 영향을 미치고 있습니다.
이러한 논리는 모바일 기기에도 적용됩니다. 마이크론의 LPDDR5X는 1-감마 공정을 기반으로 최대 9.6Gbps의 속도를 달성하면서 전체 전력 소비를 30% 줄입니다. 로컬 AI 모델을 실행하는 스마트폰의 경우 배터리 수명은 사용자가 직접적으로 체감할 수 있는 중요한 요소입니다.
크기: 삼성의 비장의 무기
마이크론의 전체 생산 능력은 가장 작습니다. 삼성처럼 절대적인 규모를 갖추지 못한 마이크론은 가격 경쟁에 의존할 수 없고, 기술 프리미엄 전략만을 추구할 수밖에 없습니다.
이것이 바로 마이크론이 제조 공정 및 에너지 효율성 분야에서 선두 자리를 유지해야 하는 이유입니다. 기술적 우위가 사라지면 가격 경쟁에서 이길 가능성이 없어지기 때문입니다.
다음은 세 회사의 입장을 간략하게 요약한 것입니다.
하이닉스는 HBM 패키징 기술 덕분에 AI 메모리 붐에서 가장 큰 이득을 얻었고, 삼성은 규모의 경제를 통해 기존 DRAM 시장에서 지배력을 유지했지만 HBM 분야에서는 부진했다.
마이크론은 공정 기술과 에너지 효율성 분야의 선두주자이며 생산 능력은 가장 작지만, 기술 프리미엄과 조기 주문 확보를 통해 재정 구조에 안정성을 확보해 왔습니다.
NAND와 NOR: 마이크론의 나머지 두 가지 핵심 요소
마이크론은 NAND 플래시 메모리와 NOR 플래시 메모리라는 두 가지 사업 분야를 더 보유하고 있습니다.
글로벌 NAND 시장에서 마이크론은 삼성, SK하이닉스, 키옥시아, 웨스턴디지털에 이어 10~15%의 시장 점유율로 4위 또는 5위를 차지하고 있습니다.
NOR 플래시 메모리는 NAND에 비해 시장 규모가 훨씬 작으며, 저가형 시장은 마크로닉스, 윈본드, 기가디바이스와 같은 대만 및 중국 본토 기업들이 장악하고 있습니다. 마이크론은 저용량 소비자용 제품 주문을 선제적으로 포기하고, 대신 고급 자동차 및 산업 시장에 집중하고 있습니다.
NOR 칩의 각 메모리 셀은 비트 라인에 직접 연결되어 단일 바이트 임의 주소 지정을 지원하는 병렬 구조를 형성합니다. 자동차의 CPU에 전원이 공급되면 메모리 버스를 통해 NOR 칩 내의 부트 코드를 직접 실행할 수 있으므로 자동차 계기판에 불이 몇 밀리초 만에 켜질 수 있습니다.
대역폭 측면에서 마이크론은 8개의 데이터 라인과 DDR 기술을 사용하여 NOR 게이트의 읽기 속도를 400MB/s 수준으로 끌어올린 Octal xSPI 인터페이스 표준 개발을 선도했습니다.
최신 스마트 자동차의 콕핏 시스템은 점점 더 복잡해지고 있으며, 빠른 냉간 시동을 위해서는 이러한 속도가 매우 중요합니다. 마이크론의 자동차용 NOR 플래시 메모리는 최고 수준의 안전 등급인 ASIL-D 인증을 획득했으며, 칩에는 하드웨어 ECC 오류 정정 로직이 내장되어 있어 극히 짧은 시간 내에 오류를 자동으로 정정할 수 있습니다.
산업 장비와 자동차는 대개 10년 이상의 수명을 갖습니다. 마이크론은 자체 웨이퍼 제조 시설을 보유하고 있어 10년 이상 지속적인 공급을 보장할 수 있는데, 이는 파운드리에 의존하는 많은 경쟁업체들이 할 수 없는 부분입니다.
NAND 및 NOR 사업은 HBM에 의존하지 않는 마이크론의 또 다른 수익원입니다.
전자는 제조 공정을 선도하고 제품 구조를 업그레이드함으로써 데이터 센터 붐을 활용하고 있으며, 후자는 대체 불가능한 물리적 특성과 엄격한 인증 요건을 활용하여 자동차 산업 고객을 확보하고 있습니다.
두 가지 논리는 서로 다르지만, 둘 다 같은 방향을 가리킵니다. 가격 경쟁을 피하고 성능과 신뢰성이 가장 중요한 영역에서 프리미엄을 확보하는 것입니다.
마이크론의 현재 가치는 얼마인가요? 비싼가요?
현재 마이크론의 주가는 약 600달러이며, 주가수익비율은 21.44, 시가총액은 약 6,500억 달러입니다.
월가 주요 투자은행들이 제시한 12개월 목표 주가는 400달러에서 675달러 사이에 집중되어 있으며, 평균치는 500달러에 가깝습니다. 이러한 기준으로 볼 때 현재 주가는 저평가되어 있습니다.
왜 PE가 21배인가요?
지난 30년간 메모리 칩은 전형적인 경기 순환형 주식의 특징을 보여왔습니다.
산업이 호황을 누릴 때는 생산량이 늘어나지만, 이후에는 모두 과잉생산, 가격 하락, 손실에 직면하게 됩니다. 시장은 이러한 유형의 사업에 대해 신뢰도가 낮아 일반적으로 주가수익비율(PER)을 8~10 정도로만 책정합니다.
마이크론의 현재 성장률은 21배에 달하며, 이는 주로 HBM의 수익 구조 변화 때문입니다.
이전에는 마이크론이 표준 DDR 메모리를 생산했으며, 생산량과 판매 가격은 전적으로 시장 상황에 따라 달라졌습니다. 하지만 이제 HBM은 엔비디아와 같은 고객사와 생산 시작 전부터 취소 불가능한 장기 공급 계약을 체결하여 가격과 수량을 고정함으로써 주문 생산 방식으로 생산합니다.
HBM의 2026년 생산 능력은 이미 전량 매진된 것으로 알려졌습니다. 이 모델에 따라 마이크론의 미래 수익은 더 이상 예측이 아닌 계약에 기반하게 됩니다.
월가의 논리도 그에 맞춰 바뀌었습니다. 이 회사는 안정적인 인프라 제공업체이며, 계약도 안전하기 때문에 기업 가치에 대한 배수가 자연스럽게 높아집니다.
또 다른 원동력은 자금 조달 구조입니다. 마이크론은 미국에서 대규모 첨단 메모리 제조 능력을 갖춘 유일한 회사입니다. 반도체법 제정 및 공급망 현지화를 촉진하는 정책들을 배경으로, 미국 기관 투자자들이 AI 하드웨어 분야에 자금을 투자할 때 막대한 자본이 마이크론으로 유입되어 실질적인 유동성 프리미엄을 창출합니다.
SK하이닉스: 최고의 기술력, 최저 수준의 기업가치
SK하이닉스의 주가수익비율(PER)은 12.17로 마이크론보다 낮습니다. HBM은 50% 이상의 시장 점유율을 차지하고 있으며 엔비디아의 고급 GPU에 핵심 부품으로 사용되고 있지만,
한편으로, 한국 상장 기업들은 복잡한 재벌 지배구조, 낮은 배당성향 및 자사주 매입률, 그리고 이익이 그룹 내에서 순환되는 경향이 있어 소액 주주에게는 거의 돌아가지 않습니다. 결과적으로, 한국 기업들의 기업가치 배율은 수익성이 비슷하더라도 미국 기업들에 비해 체계적으로 낮습니다.
둘째로 지정학적 위험이 있습니다. SK하이닉스는 중국 우시 공장에 전체 재래식 DRAM 생산 능력의 약 40%를 보유하고 있습니다. 미국이 중국에 EUV 장비 수출을 금지함에 따라 이 생산 라인을 첨단 공정으로 업그레이드할 수 없게 되었습니다. 향후 SK하이닉스는 막대한 생산 설비 이전 비용을 감수하거나, 해당 자산의 경쟁력 상실을 지켜봐야 할 것입니다.
월가는 이러한 잠재적 비용을 기업 가치 평가에 직접 반영했습니다.
삼성: 주가수익비율(PER) 34.18은 높은 프리미엄이라기보다는 분모가 급격히 감소한 수치입니다.
삼성전자의 주가수익비율(PER) 34.18은 완전히 다른 논리에 기반한 것입니다.
삼성은 순수 메모리 기업이 아닙니다. 웨이퍼, 스마트폰, 디스플레이 패널도 생산합니다. 문제는 파운드리 사업부가 TSMC와의 3nm 및 2nm 공정 경쟁에서 뒤처지지 않기 위해 수백억 달러를 투자했지만, 수율이 낮고 막대한 손실을 보고 있다는 점입니다.
그룹의 전체 순이익은 크게 감소했습니다. 그러나 한국 국내 자금 유입으로 주가는 급락하지 않았습니다. 분자는 줄어들지 않고 분모는 줄어들면서 주가수익비율(PER)은 25배를 넘어섰습니다.
마이크론에 대한 기관 투자자들의 목표 주가
이러한 목표 가격을 뒷받침하는 핵심 논리는 매우 일관적입니다. HBM 제품 비중 증가로 총마진이 향상되고, 장기 계약으로 매출 안정성이 확보되며, 생산 설비를 HBM으로 전환함으로써 일반 DRAM 공급이 압축되어 전체 제품 라인에 걸쳐 가격 인상 여지가 생기고, 1-감마 공정의 대량 생산 이후 자본 지출이 회수 기간에 접어들면서 잉여 현금 흐름이 마이너스에서 플러스로 전환되기 때문입니다.
물론 목표 가격은 현재 정보와 모델 가정을 바탕으로 한 예측일 뿐이며, 보장된 가격은 아닙니다.
스토리지 산업의 경기 순환성은 사라지지 않았습니다. 다만 HBM의 주문 구조로 인해 그 변동성이 부분적으로 완화되었을 뿐입니다. 만약 AI 인프라 투자 속도가 둔화되거나, 삼성전자가 HBM4 단계에서 엔비디아의 공급망에 다시 진입한다면, 수요와 공급의 관계는 재조정될 것입니다.
III. 고급 패키징 및 차세대 AI 연결성
좋은 HBM과 나쁜 HBM의 기준
모든 제조업체는 자사의 HBM이 최고라고 주장합니다. 삼성은 삼성 제품이 좋다고 하고, SK하이닉스는 SK하이닉스 제품이 좋다고 하고, 마이크론은 마이크론 제품이 좋다고 합니다. 그렇다면 HBM의 품질을 판단할 수 있는 기준이 있을까요?
세 가지 매우 중요한 매개변수
첫 번째는 핀 속도, 즉 대역폭입니다.
HBM은 수천 개의 마이크로 범프를 통해 GPU에 연결되며, 각 범프는 전송 채널을 나타냅니다. 핀 속도는 단일 채널이 초당 전송할 수 있는 데이터 양을 측정합니다.
물리적으로 디지털 신호에서 0과 1은 서로 다른 전압 상태에 해당합니다. 예를 들어 1.1V는 1을, 0V는 0을 나타냅니다. 이는 0과 1 사이의 변환 및 계산 과정을 포함합니다.
데이터 전송은 이 두 상태 사이에서 전압을 전환하는 과정, 즉 전압 레벨 스위칭을 포함합니다. 9.2Gbps의 핀 전송 속도는 수십 마이크로미터 직경의 금속 범프에서 전압이 초당 정확히 92억 번 전환되어야 함을 의미합니다.
HBM 물리적 버스 폭은 1024핀으로 고정되어 있으므로 총 대역폭은 핀 속도 × 1024비트 ÷ 8 = GB/s로 계산됩니다.
마이크론의 HBM3E는 9.2Gbps의 속도를 제공하며, 이는 스택당 약 1.2TB/s의 대역폭에 해당합니다. SK하이닉스와 삼성의 현재 주력 제품은 일반적으로 8.0Gbps에서 8.5Gbps 사이의 속도를 제공합니다.
넘기는 속도가 빠를수록 전송되는 데이터 양은 많아지지만, 전력 소비량은 그에 비례하여 증가합니다.
각각의 플립은 본질적으로 전선의 기생 정전 용량의 충전 및 방전이며, 이 모든 에너지는 궁극적으로 열로 변환됩니다.
너무 빠르게 신호를 전환하면 신호 파형이 왜곡될 수도 있습니다. 이전 펄스의 전압이 안정되기도 전에 다음 펄스가 도착하여 수신기가 0과 1을 구분하지 못하게 되고, 결국 데이터 전송이 완전히 실패하게 됩니다.
두 번째는 에너지 효율로, pJ/bit 단위로 측정됩니다.
데이터 1비트를 전송하는 데 소모되는 에너지는 몇 피코줄일까요? 이 값이 낮을수록 좋습니다.
이 지표는 HBM과 GPU가 함께 패키징되어 있고, 둘에서 발생하는 열을 이 패키지 내에서 방출해야 하기 때문에 중요합니다. HBM 자체의 전력 소모가 너무 높으면 전체 시스템의 열 부하가 열 설계 한계를 초과하게 되어 GPU의 주파수가 낮아지고 결과적으로 실제 연산 성능이 저하됩니다.
마이크론은 1-베타 공정 노드에서 구현한 저전압 설계 덕분에 경쟁사 제품보다 에너지 효율이 약 30% 더 높다고 주장합니다. 단일 GPU가 600~1000와트를 소비하는 데이터 센터 환경에서 이러한 에너지 효율 차이는 전기료와 냉각 비용 절감으로 직결됩니다.
세 번째는 열 저항과 포장 공정입니다.
이것이 가장 어려운 부분이기도 하지만, 동시에 SK 하이닉스의 현재 진정한 경쟁 우위이기도 합니다.
열 저항의 기본 공식은 다음과 같습니다. 온도 상승 = 소비 전력 × 열 저항. 소비 전력이 일정할 때, 열 저항이 낮을수록 칩 온도가 낮아집니다.
HBM은 수직으로 적층된 다층 DRAM 다이의 약자입니다. 가장 아래쪽의 로직 칩에서 가장 많은 열이 발생하며, 이 열은 위쪽으로 전달되어 방출되어야 합니다. 층 사이의 공간을 채우는 데 사용되는 재료는 이러한 열 방출 경로의 효율성을 결정합니다.
현재 업계에는 크게 두 가지 프로세스가 있습니다.
마이크론과 삼성은 고온 고압에서 접합된 고체 필름인 열압착 비전도성 박막 TC-NCF를 사용합니다.
문제는 프레스 과정에서 미세한 기포가 마이크로 범프 주변에 쉽게 남아 공기의 열전도율이 극도로 낮아지고 전체적인 열 저항이 높아진다는 것입니다. SK 하이닉스는 배치 리플로우 성형용 하부 필러인 MR-MUF를 사용합니다.
액체 에폭시 수지를 각 층 사이에 주입하면 모세관 현상을 통해 모든 틈이 채워집니다. 경화 후에는 기포가 전혀 발생하지 않으며, 열 저항도 현저히 낮아집니다.
높은 열 저항으로 인한 결과는 연쇄적입니다. DRAM은 미세한 커패시터를 통해 전하를 저장하는데, 온도가 10도 상승할 때마다 누설 전류율이 기하급수적으로 증가합니다.
온도가 너무 높으면 일반적으로 64밀리초 동안 유지될 수 있는 전하가 단 32밀리초 만에 누출될 수 있으며, 이로 인해 메모리 컨트롤러는 두 배의 리프레시 명령을 보내야 합니다. 리프레시 기간 동안 DRAM을 읽거나 쓸 수 없으므로 사용 가능한 대역폭이 크게 감소합니다.
패키징 공정은 적층 가능한 레이어 수의 상한선도 결정합니다. 데이터 센터는 칩의 물리적 높이에 엄격한 제한이 있는데, 액체 충전 방식을 사용하면 틈새를 더욱 촘촘하게 메울 수 있어 동일한 높이에 더 많은 DRAM 레이어를 배치할 수 있습니다.
이것이 바로 HBM4를 16층으로 적층할 때 패키징 공정의 수율 압력이 급격히 증가하는 이유입니다. 층이 많아질수록 각 층의 기계적 응력과 열팽창 계수가 일정하지 않은 문제가 더욱 심화됩니다. 어느 층에서든 베어 다이에 미세한 휨이 발생하면 전체 모듈이 손상될 수 있습니다.
제조업체 자료를 읽을 때 무엇을 살펴봐야 할까요?
HBM 제품 설명을 볼 때 다음 세 가지 사항을 확인하세요.
1) 공칭 핀 속도는 어떤 전압에서 측정됩니까? 실제 데이터 센터에서는 전압을 높여 주파수를 높이는 것이 비현실적입니다. 전력 소모가 열 설계 한계를 초과하기 때문입니다.
2) 적층 구조 및 단일 칩 용량. 12층 구조의 36GB HBM4를 대량 생산할 수 있는지 여부와 수율은 최대 대역폭 수치보다 더 중요한 의미를 갖습니다.
3) 실제 공급업체는 누구인가? 모든 기술 사양에 대한 최종 검증은 고객 인수 테스트에서 이루어집니다. SK 하이닉스는 엔비디아의 H100용 HBM 공급을 거의 독점해 왔으며, 마이크론은 에너지 효율성과 대역폭을 결합하여 H200 공급망에 진입했습니다. 삼성은 HBM3E 단계에서 과열 문제로 엔비디아의 테스트를 제때 통과하지 못했고, 현재 HBM4 단계에서 따라잡기 위해 노력하고 있습니다.
주요 고객 선정 결과는 위에 언급된 모든 매개변수를 기반으로 한 종합 점수입니다.
CXL: 메모리 경쟁의 새로운 전장
HBM은 단일 GPU 내에서 대역폭 문제를 해결합니다. AI 클러스터가 수백 또는 수천 개의 GPU로 확장될 경우, 문제는 더 이상 연산 속도가 충분한지가 아니라 메모리 할당이 충분히 유연한지 여부가 됩니다.
이 문제에 대한 해결책은 CXL입니다.
캐시 일관성 문제
기존 데이터센터 메모리 아키텍처에는 근본적인 문제가 있습니다. 메모리가 물리적으로 서버에 고정되어 있어 여러 기기 간에 공유할 수 없다는 것입니다.
한 서버에서는 대규모 모델 추론 작업이 진행 중이었는데, KV 캐시의 메모리가 가득 차 시스템이 다운되고 오류가 발생했습니다. 같은 데이터 센터에 있는 다른 서버는 가벼운 작업을 실행 중이었고, 수백 GB의 메모리가 유휴 상태였습니다.
이렇게 유휴 상태인 DRAM 자산은 필요한 곳에 할당될 수 없습니다. 업계에서는 이를 메모리 배치(memory siting)라고 합니다. 하이퍼스케일 데이터 센터의 메모리 배치율은 일반적으로 20%에서 30% 사이입니다. 메모리가 서버 BOM 비용의 40% 이상을 차지한다는 점을 고려하면, 이는 실질적인 자본 지출의 낭비를 의미합니다.
두 번째 문제는 캐시 일관성입니다. CPU와 GPU는 각각 자체적인 개인 캐시를 가지고 있습니다. 두 캐시가 동일한 메모리 데이터의 복사본을 모두 보유하고 있을 때, 한쪽이 다른 쪽의 동의 없이 데이터를 수정하면 다른 쪽은 오래된 데이터를 읽게 됩니다.
이전 해결책은 캐시된 데이터를 DRAM에 다시 기록한 다음 소프트웨어 수준에서 다시 읽는 것이었습니다. 이 작업은 수 마이크로초가 걸렸고, 그동안 프로세서 파이프라인이 중단되었습니다.
나노초 수준의 응답 속도를 중요시하는 AI 시스템에서 이러한 일시적인 지연은 시스템 성능을 30% 이상 저하시킬 수 있으며, 엔지니어가 코드 내에서 칩 간 데이터 동기화를 수동으로 처리해야 하는데, 이는 오류 발생 가능성이 매우 높습니다.
이 두 문제의 공통적인 원인은 PCIe 프로토콜의 한계에 있습니다. PCIe는 원래 하드 드라이브나 네트워크 카드와 같은 I/O 장치를 위해 설계되었으며, 대용량 데이터 블록 전송만 지원합니다. 바이트 단위의 직접적인 읽기/쓰기 작업을 지원하지 않으며, 내장된 캐시 일관성 메커니즘도 없습니다.
마이크론의 CXL
CXL(Compute Express Link)은 PCIe 물리 계층 위에 프로토콜 로직을 재작성하여 메모리 의미론 및 캐시 일관성을 특별히 목표로 합니다.
캐시 일관성을 유지하기 위해 CXL은 자동 유지 관리를 위한 하드웨어 상태 머신을 사용합니다. 시스템의 각 64바이트 캐시 라인에는 수정됨, 전용, 공유 또는 무효와 같은 상태 플래그가 있습니다.
GPU가 데이터를 수정해야 할 때, 해당 요청은 CPU 측의 메인 에이전트로 전달됩니다. 메인 에이전트는 스니핑 필터를 통해 어떤 장치가 해당 데이터의 사본을 캐시에 가지고 있는지 기록합니다.
CPU의 L3 캐시에 데이터가 있는 경우 하드웨어 회로는 자동으로 무효화 신호를 보내 CPU의 캐시 상태를 무효화하여 GPU가 독점적으로 접근하여 쓰기 작업을 수행할 수 있도록 합니다.
전체 과정은 운영 체제의 개입이나 프로그래머가 동기화 코드를 직접 작성할 필요 없이 수 나노초에서 수십 나노초 내에 완료됩니다.
데이터 전송 형식 측면에서 CXL은 PCIe의 긴 데이터 패킷 헤더를 버리고 헤더 오버헤드가 최소화된 고정 256바이트 FLIT 형식을 채택했습니다. 메모리 컨트롤러는 복잡한 경계 해석이 필요하지 않으며, 데이터는 파이프라인처럼 버스로 지속적으로 공급됩니다.
원격 CXL 메모리에 접근하는 데 걸리는 지연 시간은 이론적으로 170~250나노초까지 줄일 수 있는데, 이는 로컬 DDR5보다는 느리지만 PCIe의 마이크로초 수준 지연 시간보다는 훨씬 짧습니다.
메모리 공유와 관련하여 CXL은 스위치를 사용하여 여러 메모리 모듈을 독립적인 메모리 풀로 그룹화하므로 더 이상 특정 서버에 종속되지 않습니다. 관리 소프트웨어는 메모리 풀 내의 특정 용량을 필요한 컴퓨팅 노드에 마이크로초 단위로 동적으로 매핑할 수 있습니다.
서버 A의 KV 캐시가 거의 꽉 찼으므로 풀에서 일부를 가져와 서버 B의 유휴 메모리를 확보하겠습니다.
마이크론 CXL의 업계 내 입지
마이크론은 자체 DDR5 공정을 기반으로 제조된 순수 메모리 확장 장치인 CXL 타입 3 메모리 확장 모듈을 출시했습니다.
논리적으로, 이것과 HBM은 서로 다른 수준의 제품입니다. HBM은 GPU 옆에서 수백 기가바이트에 달하는 극단적인 대역폭 요구 사항을 20나노초 범위의 지연 시간으로 충족합니다.
CXL 모듈은 250나노초 범위의 지연 시간과 테라바이트 수준에 이르는 용량을 통해 노드 간 대용량 확장 문제를 해결합니다.
이 두 가지를 함께 사용하면 자주 액세스하는 핫 데이터를 로컬 HBM에 유지하는 동시에 장기 컨텍스트 히스토리 KV 캐시 및 체크포인트와 같은 콜드 데이터를 CXL 메모리 풀로 오프로드할 수 있습니다.
N번째 레이어를 계산할 때, AI 프레임워크는 N+1번째 레이어에 필요한 콜드 데이터를 CXL 메모리에서 로컬 머신으로 미리 가져와 계산 시간을 활용하여 CXL의 물리적 지연 시간을 감춥니다. 이를 통해 고가의 HBM 용량 낭비를 방지하고 백만 토큰 수준과 같은 매우 긴 컨텍스트 윈도우를 구현할 수 있습니다.
마이크론의 사업적 관점에서 볼 때, CXL은 새로운 진입점입니다.
하이닉스는 경쟁이 치열한 HBM 시장에서 선발 주자로서 확실한 우위를 점하고 있습니다. 반면 CXL 메모리 확장 시장은 아직 초기 단계이며, 고객 기반이 아직 확고히 구축되지 않았습니다. 순수 스토리지 제조업체인 마이크론은 이 시장에서 과거부터 이어져 온 부담이 없습니다.
또한 CXL 모듈은 표준 DDR5 공정을 사용하므로 HBM의 복잡한 스태킹 패키징이 필요하지 않아 수율이 낮고 생산 능력에 대한 부담이 줄어듭니다.
데이터센터 메모리 정체는 실질적인 자본 낭비이며, 현재 아키텍처 수준에서 CXL 풀링이 유일한 실행 가능한 해결책입니다. 이러한 필요성은 앞으로도 사라지지 않을 것입니다.
IV. 산업 경제 및 첨단 연구
다음 10년
첨단 DRAM 웨이퍼 제조 시설을 건설하는 데는 150억 달러에서 200억 달러가 소요되며, ASML의 EUV 리소그래피 장비 한 대 가격만 해도 2억 달러가 넘습니다. 여기에 전력 공급 및 냉각 시스템을 위한 추가 투자도 필요합니다.
장비 감가상각 기간은 5년입니다. 다시 말해, 웨이퍼 제조 공장은 주문이나 출하량과 관계없이 매일 수천만 달러를 상각하고 있는 것입니다.
장비 활용률은 95% 이상으로 유지되어야 합니다. 활용률이 떨어지면 비트당 제조 비용이 급증합니다. 이것이 바로 스토리지 산업이 경기 변동에 매우 민감한 이유입니다.
수요가 감소하면 제조업체는 생산량을 쉽게 줄일 수 없습니다. 그렇게 하면 비용 구조가 더욱 악화될 뿐이기 때문입니다. 그들은 현상 유지를 하다가 가격 경쟁에 뛰어들 수밖에 없습니다.
마이크론은 HBM으로부터 장기 주문을 통해 이러한 위험을 부분적으로 헤지했지만, 웨이퍼 제조 시설의 감가상각을 지배하는 물리적 법칙은 변하지 않았습니다.
HBM이 비싼 이유는 무엇인가요?
HBM 제조 비용은 일반 DDR5보다 몇 배나 더 비싼데, 이는 여러 층의 DRAM 다이를 수직으로 쌓아야 하기 때문입니다. 어느 한 층이라도 불량이면 전체 모듈을 사용할 수 없게 됩니다.
단일 웨이퍼 수율이 95%, 층간 접합 수율이 99%이고 N개의 층이 적층된 경우 전체 수율은 다음과 같습니다.
8층 HBM3E의 전체 수율은 약 61%입니다. 12층 HBM4의 수율은 약 48%입니다.
웨이퍼당 95%의 수율은 이미 상당히 성숙한 공정이지만, 12개 층을 적층할 경우 최종 테스트에서 여전히 절반 이상의 재료가 폐기됩니다. 각 층은 덧셈이 아닌 곱셈 방식으로 작용하여 오류가 계속 누적됩니다.
SK하이닉스의 MR-MUF 액상 캡슐화 기술이 상업적 가치를 지니는 이유는 층간 결합 수율을 직접적으로 향상시켜, 배합물의 Ybond 값을 높이기 때문입니다.
마이크론이 1-감마 노드에서 단일 웨이퍼의 수율 증가를 극대화해야 하는 이유는 무엇일까요? Y 다이 수율이 1% 포인트 증가할 때마다 12층 스택 전체에 미치는 영향이 기하급수적으로 증폭되기 때문입니다.
수요 증가만으로 HBM 가격이 급격히 하락하지 않는 이유는 무엇일까요? 생산 능력 확장과 생산량 증대에는 시간이 걸리며, 이 두 가지 모두 서두를 수 없기 때문입니다.
인메모리 컴퓨팅: 20년 전부터 제안되어 왔는데, 왜 아직 상용화되지 않았을까요?
HBM과 CXL 모두 데이터 이동 문제를 해결합니다. 두 솔루션 모두 더 빠른 메모리 풀을 제공하거나 더 유연한 메모리 풀을 제공합니다. 하지만 에너지 소비 관점에서 보면, 데이터 이동 자체가 문제입니다.
PIM(Power In Memory) 컴퓨팅의 개념은 연산 장치를 DRAM에 직접 통합하여 데이터가 이동하지 않고, 연산이 제자리에서 수행되며, 결과만 전송되도록 하는 것입니다.
이 아이디어는 이론적으로는 매우 훌륭하지만, 물리적 차원에서 근본적인 모순에 부딪힙니다.
DRAM 트랜지스터는 커패시터가 전하를 유지할 수 있도록 낮은 드레인 전압이 필요합니다. 따라서 DRAM 제조 공정에서는 문턱 전압이 높은 트랜지스터를 사용하여 느리지만 안정적인 스위칭을 구현합니다.
CPU나 GPU 같은 로직 칩은 클럭 속도가 수 GHz에 달할 정도로 빠르게 동작하기 위해 트랜지스터가 매우 빠른 속도로 스위칭해야 합니다. 이를 위해서는 낮은 문턱 전압이 필요하지만, 그만큼 누설 전류가 커지는 단점이 있습니다.
이 두 가지 요구는 완전히 상반됩니다.
DRAM 실리콘 웨이퍼에 처리 장치를 내장하면 이 처리 장치의 속도는 GPU보다 훨씬 느려집니다. 더 큰 문제는 처리 과정에서 발생하는 열이 주변 커패시터를 가열하여 누설 전류를 가속화하고 데이터 신뢰성을 저하시킨다는 점입니다.
그러니까 PIM을 하고 싶어하는 사람이 아무도 없는 게 아니라, 제조 공정의 물리적 요구 사항이 본질적으로 모순되는 것입니다. 이 문제는 20년 넘게 제기되어 왔지만, 오늘날까지도 대규모 상용 솔루션은 없습니다.
현재 마이크론과 같은 제조업체들은 차선책으로 DRAM 어레이에 컴퓨팅 유닛을 내장하는 대신, HBM의 맨 아래쪽 논리 레이어인 베이스 다이에 더 많은 AI 컴퓨팅 성능을 통합하는 방안을 모색하고 있습니다.
TSMC의 첨단 로직 공정을 사용하면 기본 다이를 제조할 수 있어 DRAM 어레이의 공정 제약을 우회할 수 있습니다. 그러나 이는 데이터 이동 없이 진정한 인플레이스 연산을 구현하는 것과는 거리가 멀며, 메모리 자체가 연산을 수행하는 것이 아니라 메모리 가까이에 소형 GPU를 부착하는 것에 더 가깝습니다.
그래서,
마이크론의 현재 사업 전략은 명확합니다. 선도적인 1-감마 공정을 활용하여 비트당 비용을 낮추고, HBM의 높은 수익성과 용량 흡수 효과를 통해 가격 결정력을 확보하며, 장기 주문을 확보하여 경기 변동에 따른 영향을 최소화하는 것입니다. 이러한 전략은 AI 인프라 투자 증가 추세를 고려할 때 재정적으로 타당합니다.
하지만 장기적인 구조적 문제는 여전히 해결되지 않은 채 남아 있습니다. DRAM 평면 소형화는 물리적 한계에 다다르고 있으며, 3D 적층으로 인한 수율 저하는 층 수가 증가함에 따라 기하급수적으로 증가하고, 단기적으로 인메모리 컴퓨팅의 공정 모순을 극복할 방법이 없습니다.
이는 마이크론의 미래 경쟁력이 단일 기술 노드에서의 선두성보다는 수율 엔지니어링, 패키징 공정, 시스템 통합을 포함한 여러 측면에서 경쟁사보다 실수를 줄이는 데 점점 더 달려 있음을 의미합니다.
해자는 결코 단일 기술로 이루어지는 것이 아니라, 이러한 물리적 제약 조건들을 동시에 관리할 수 있는 포괄적인 역량입니다. 그리고 이러한 역량을 갖추려면 수십 년에 걸친 제조 경험이 축적되어야 합니다.
결론적으로
마이크론 테크놀로지를 연구하던 중, 친한 친구인 @deepbluue 와 이런 이야기를 나눴습니다. "컴퓨팅 셀이 부족하면 면적을 늘리고, 면적이 너무 크면 수율에 영향을 줍니다. 그다음은 인터커넥트 문제인데, 인터커넥트는 통신 및 재료 처리 문제를 야기합니다. 그래서 적층을 시작하는데, 적층에는 열 방출 문제가 있고, 열 방출 또한 수율에 영향을 미칩니다. 악순환이죠. 결국 칩 제조는 재료 과학으로 귀결되고, 궁극적으로는 초전도 재료에 의존할 수 있게 됩니다."
인공지능에게 물어보니 놀랍게도 "단 몇십 단어로 지난 50년간 반도체 산업, 특히 AI 칩이 갇혀 있던 '두더지 잡기'식의 엔지니어링 교착 상태를 정확하게 요약했습니다."라고 답했습니다.
귀하의 추론은 매우 엄밀하며, 전반부는 전적으로 업계의 합의에 기반하고 있습니다. 다만 "초전도 물질"에 관한 마지막 결론 부분에만 공학적 응용 측면에서 치명적인 물리적 오류가 있습니다.
"컴퓨팅 유닛 부족으로 면적 증가 및 수율 감소 발생" - 리소그래피 마스크의 한계와 경제적 장벽;
"여전히 상호 연결에 관한 문제이며, 상호 연결에는 통신 및 데이터 전송 문제가 있습니다." - RC 지연 및 메모리 병목 현상
"적재를 시작하세요. 적층 과정에서 열 방출 문제가 발생하여 수율에 영향을 미칩니다." - 열유속과 열역학적 벽.
"칩 기술은 궁극적으로 재료 과학으로 귀결된다"는 말은 전적으로 맞습니다. 하지만 희망은 초전도에 있는 것이 아니라 오히려...
1) 광자 상호 연결(실리콘 포토닉스 - 실리콘 포토닉스 기술)
2) 2차원 반도체 재료(2D 재료)
3) 컴퓨팅 아키텍처의 완전한 혁명(인메모리 컴퓨팅 및 두뇌형 컴퓨팅).




