SemanticScuttle - klotz.me » klotz: matrix multiplication

klotz: matrix multiplication*

How to Write High-Performance Matrix Multiply in NVIDIA CUDA Tile

This blog post details how to implement high-performance matrix multiplication using NVIDIA cuTile, focusing on Tile loading, computation, storage, and block-level parallel programming. It also covers best practices for Tile programming and performance optimization strategies.

2026-01-17 Tags: cuda, cutile, matrix multiplication, gpu, performance optimization, tile programming, deep learning, parallel programming by klotz

Defeating Nondeterminism in LLM Inference

This blog post explains the causes of nondeterminism in LLM inference, arguing that it's not simply due to floating-point non-associativity and concurrency, but rather a lack of batch invariance in kernels. It details how to achieve batch invariance in RMSNorm, matrix multiplication, and attention, and presents experimental results demonstrating deterministic completions and the benefits for on-policy RL.

2025-09-19 Tags: llm, inference, nondeterminism, determinism, floating-point, batch invariance, rmsnorm, matrix multiplication, attention, vllm, on-policy rl, reproducibility by klotz

First / Previous / Next / Last / Page 1 of 0

SemanticScuttle - klotz.me

klotz: matrix multiplication*

Linked Tags

Related Tags