Llama 3.1 GPU Comparison

Benchmark Question:
Prompt: 7000 tokens
Completion: 214 tokens

GPU	vRAM	Answer Speed (seconds)	4 parallel questions (seconds)	Price	AWS*	Runpod*	Limits
Tesla L4	24	16	37		G6 $0.80	$0.43	Up to 20k tokens
RTX 4090	24	5	8	$2,000	NA	$0.69	Up to 20k tokens
Tesla L40s	48	6.5	9	$9,800	G6e $1.861	$1.03	Full 128k Token window
H100 SXM	80	2.4	3.4	$31,000	NA	$2.99	Full 128k Token window

* Discounts available for different usage patterns