My AI - a malkesh2911 Collection

malkesh2911 's Collections

My AI

My AI

updated 13 days ago

FlowRL: Matching Reward Distributions for LLM Reasoning

Paper • 2509.15207 • Published Sep 18 • 114
Kwaipilot/KAT-Dev-72B-Exp

Text Generation • 73B • Updated Oct 13 • 685 • 155
Agentic Entropy-Balanced Policy Optimization

Paper • 2510.14545 • Published Oct 16 • 104
Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

Paper • 2511.13288 • Published 22 days ago • 17