Appendix H

Memory Hierarchy and Caching Theory

Three-tier design, effective latency formulas, and hit rate analysis.

H.1 Three-Tier Hierarchy

Tier	Media	Capacity	Latency
Tier 0: HBM Pinned	GPU HBM	~5 GB	100 ns
Tier 1: HBM Evictable	GPU HBM	~37 GB	100 ns
Tier 2: CXL DRAM	Endpoint DDR5	1 TB	250 ns
Tier 3: Flash	NVMe SSD	16 TB	25 μs

L_eff = Σ (hit_rate_i × latency_i)

With 95% HBM hit rate, 4.5% CXL hit, 0.5% flash:

L_eff = 0.95×100 + 0.045×250 + 0.005×25000 = 95 + 11.25 + 125 = 231 ns