Darshan Deshpande's picture

8 6 8

Darshan Deshpande

DarshanDeshpande

·

http://darshandeshpande.github.io

AI & ML interests

Explainability, Robustness, Evaluations

Recent Activity

upvoted a paper about 16 hours ago

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

submitted a paper about 16 hours ago

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

published a dataset 1 day ago

PatronusAI/trace-dataset

View all activity

Organizations

Papers 4

arxiv:2510.01353

arxiv:2505.08638

arxiv:2503.19193

arxiv:2412.14140

models 9

DarshanDeshpande/sherllama3_ia3

Updated Apr 24, 2024

DarshanDeshpande/gemma_2b_oasst1_reward_model

Updated Mar 15, 2024 • 1

DarshanDeshpande/gemma_2b_oasst1_ppo_model

Reinforcement Learning • Updated Mar 14, 2024

DarshanDeshpande/distilbert_eli5_reward_model

Text Classification • 67M • Updated Mar 12, 2024 • 3

DarshanDeshpande/distilbert_social_reasoning_reward_model

Text Classification • 67M • Updated Mar 10, 2024 • 4

DarshanDeshpande/gemma_2b_social_reasoning_reward_model

Updated Mar 10, 2024 • 3

DarshanDeshpande/gemma_2b_anthropic_reward_model

Updated Mar 9, 2024

DarshanDeshpande/gemma-2b-lora-commonsense-qa

Updated Mar 6, 2024

DarshanDeshpande/marathi-distilbert

Fill-Mask • Updated Mar 23, 2021 • 3 • 3

datasets 0

None public yet