Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

krishnateja95 updated a model 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

krishnateja95 updated a model 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

krishnateja95 updated a model 2 days ago

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

View all activity

krishnateja95

updated 6 models 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 2 days ago • 6

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

Text Generation • 32B • Updated 2 days ago • 6

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 2 days ago • 5

inference-optimization/Qwen3-Next-80B-A3B-Thinking

Text Generation • 81B • Updated 2 days ago • 2

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 2 days ago • 4

inference-optimization/Qwen3-Next-80B-A3B-Instruct

Text Generation • 81B • Updated 2 days ago • 2

krishnateja95

updated a collection 2 days ago

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

FP8-dynamic, FP8-block, NVFP4, INT4, versions of nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B • 2 items • Updated 2 days ago

krishnateja95

published 2 models 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 2 days ago • 6

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

Text Generation • 32B • Updated 2 days ago • 6

krishnateja95

updated a collection 2 days ago

Qwen3-Next-80B-A3B Quantized Models

FP8-dynamic, FP8-block, NVFP4, INT4, INT8 versions of Qwen3-Next-80B-A3B-Instruct and Qwen3-Next-80B-A3B-Thinking Models • 10 items • Updated 2 days ago

krishnateja95

published a model 2 days ago

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 2 days ago • 5

krishnateja95

updated a collection 2 days ago

Qwen3-Next-80B-A3B Quantized Models

FP8-dynamic, FP8-block, NVFP4, INT4, INT8 versions of Qwen3-Next-80B-A3B-Instruct and Qwen3-Next-80B-A3B-Thinking Models • 10 items • Updated 2 days ago

krishnateja95

published a model 2 days ago

inference-optimization/Qwen3-Next-80B-A3B-Thinking

Text Generation • 81B • Updated 2 days ago • 2

krishnateja95

updated a collection 2 days ago

Qwen3-Next-80B-A3B Quantized Models

FP8-dynamic, FP8-block, NVFP4, INT4, INT8 versions of Qwen3-Next-80B-A3B-Instruct and Qwen3-Next-80B-A3B-Thinking Models • 10 items • Updated 2 days ago

krishnateja95

published 2 models 2 days ago

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 2 days ago • 4

inference-optimization/Qwen3-Next-80B-A3B-Instruct

Text Generation • 81B • Updated 2 days ago • 2

krishnateja95

updated a model 4 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated 4 days ago • 13

krishnateja95

updated a model 5 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 5 days ago • 46