Per-Head Tracking with GQA

Llama-70B: 64 Query Heads â†’ 8 KV-Heads Ã— 80 Layers = 640 LRU Queues

1. GQA Grouping Defines Tracking Unit

â†’

KV-Head 0

â†’

LRU Queue [layer, 0]

Q10

Q11

Q12

Q13

Q14

Q15

â†’

KV-Head 1

â†’

LRU Queue [layer, 1]

â‹®

Q56

Q57

Q58

Q59

Q60

Q61

Q62

Q63

â†’

KV-Head 7

â†’

LRU Queue [layer, 7]

2. 640 Independent LRU Queues

Layer 0

Layer 1

Layer 2 ... 79

3. What Each Queue Tracks

Queue [Layer 42, KV-Head 3]

â† One of 640 queues

pos: 127891

access: 847

attn: 0.92

â†’

pos: 0

access: 512

attn: 0.88

â†’

pos: 1024

access: 234

attn: 0.45

â†’

pos: 89012

access: 89

attn: 0.31

â†’

pos: 45678

access: 12

attn: 0.08

â†’

EVICT
CANDIDATES

Per-Entry Metadata (8 bytes)

position_id â€” u32 (4B)

access_count â€” u16 (2B)

attention_score â€” fp16 (2B)

640 queues Ã— 131,072 positions Ã— 8 bytes = 640 MB metadata