train.py · Mayank022/Audio-Language-Model at main

Update train.py

b2ac71b verified 24 days ago

10.7 kB

	import os
	import dataclasses
	import torch
	import transformers
	from transformers import Trainer, TrainingArguments, TrainerCallback
	from peft import LoraConfig, get_peft_model, TaskType
	from huggingface_hub import HfApi, login
	import wandb
	from dotenv import load_dotenv
	from config import TrainConfig, ModelConfig
	from model import MultiModalModel
	from data import AudioTextDataset, DataCollator


	class SamplePredictionCallback(TrainerCallback):
	"""Every N steps, print ground-truth vs model-predicted transcript for a few samples."""

	def __init__(self, tokenizer, data_collator, train_dataset, sample_every_n_steps: int = 100, num_samples: int = 2, prompt: str = "Transcribe the following audio:"):
	self.tokenizer = tokenizer
	self.data_collator = data_collator
	self.train_dataset = train_dataset
	self.sample_every_n_steps = sample_every_n_steps
	self.num_samples = num_samples
	self.prompt = prompt
	def on_log(self, args, state, control, model=None, **kwargs):
	if state.global_step == 0 or state.global_step % self.sample_every_n_steps != 0:
	return
	if model is None:
	return
	model.eval()
	device = next(model.parameters()).device
	try:
	indices = [i % len(self.train_dataset) for i in range(self.num_samples)]
	batch = self.data_collator([self.train_dataset[i] for i in indices])
	audio_values = batch["audio_values"].to(device)
	labels_batch = batch["labels"]
	continuations = batch.get("continuation", [""] * audio_values.size(0))
	prompt_ids = self.tokenizer(self.prompt, return_tensors="pt", add_special_tokens=True).input_ids.to(device)
	prompt_ids = prompt_ids.expand(audio_values.size(0), -1)
	with torch.no_grad():
	gen_ids = model.generate(
	input_ids=prompt_ids,
	audio_values=audio_values,
	max_new_tokens=120,
	do_sample=False,
	pad_token_id=self.tokenizer.pad_token_id or self.tokenizer.eos_token_id,
	)
	prompt_len = prompt_ids.size(1)

	# Create a wandb Table
	columns = ["Step", "Audio Index", "Ground Truth", "Prediction", "Continuation"]
	table = wandb.Table(columns=columns)

	print(f"\n[WandB] Logging sample predictions at step {state.global_step}")

	for i in range(audio_values.size(0)):
	gt_tokens = [t for t in labels_batch[i].tolist() if t != -100]
	gt_text = self.tokenizer.decode(gt_tokens, skip_special_tokens=True).strip()
	pred_text = self.tokenizer.decode(gen_ids[i][prompt_len:], skip_special_tokens=True).strip()

	cont_ref = continuations[i] if i < len(continuations) else ""

	# Add row to table
	table.add_data(state.global_step, i, gt_text, pred_text, cont_ref)

	# Log the table to wandb
	if wandb.run is not None:
	wandb.log({"sample_predictions": table}, step=state.global_step)
	else:
	print("Warning: WandB run not active, skipping logging.")

	except Exception as e:
	print(f"[SamplePredictionCallback] Error: {e}\n")
	finally:
	model.train()


	import shutil
	import glob
	from transformers.trainer_utils import get_last_checkpoint

	class AggressiveDeleteCallback(TrainerCallback):
	"""
	Deletes ALL existing checkpoints in output_dir before saving a new one
	to ensure we don't run out of disk space.
	Only keeps the one we are currently training on (in memory) effectively,
	but on disk we want 0 checkpoints just before save.

	WARNING: If save fails, we have NO checkpoints on disk. Risk accepted by user.
	"""
	def __init__(self, output_dir):
	self.output_dir = output_dir

	def on_step_end(self, args, state, control, **kwargs):
	# Check if we are about to save
	# Trainer checks: if save_strategy == "steps" and global_step % save_steps == 0
	if args.save_strategy == "steps" and args.save_steps > 0:
	if state.global_step > 0 and state.global_step % args.save_steps == 0:
	# We are about to save. Delete old checkpoints.
	print(f"\n[AggressiveDeleteCallback] Step {state.global_step}: Deleting old checkpoints to free space before saving...")

	# Verify we aren't deleting something we just wrote (unlikely in on_step_end, save happens after)
	# But we might be resuming.

	ckpts = glob.glob(os.path.join(self.output_dir, "checkpoint-*"))
	for ckpt in ckpts:
	try:
	shutil.rmtree(ckpt)
	print(f" Deleted {ckpt}")
	except Exception as e:
	print(f" Failed to delete {ckpt}: {e}")

	def train():
	# Load environment variables
	load_dotenv()

	# Load Configs
	train_config = TrainConfig()
	model_config = ModelConfig()

	# Initialize WandB
	wandb.init(
	project=train_config.wandb_project,
	entity=train_config.wandb_entity,
	name=train_config.wandb_run_name,
	config=dataclasses.asdict(train_config),
	)


	# Initialize Tokenizer & Processor
	tokenizer = transformers.AutoTokenizer.from_pretrained(model_config.text_model_id)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	processor = transformers.AutoProcessor.from_pretrained(model_config.audio_model_id)

	# Initialize Model
	model = MultiModalModel(model_config)

	# Apply LoRA if requested
	if train_config.use_lora:
	peft_config = LoraConfig(
	task_type=TaskType.CAUSAL_LM,
	inference_mode=False,
	r=train_config.lora_r,
	lora_alpha=train_config.lora_alpha,
	lora_dropout=train_config.lora_dropout,
	target_modules=["q_proj", "v_proj"]
	)
	model.llm = get_peft_model(model.llm, peft_config)
	model.llm.print_trainable_parameters()

	# Dataset
	train_dataset = AudioTextDataset(train_config, processor, model_config, tokenizer)
	data_collator = DataCollator(processor, tokenizer)

	# Training Arguments (tuned for A100 80GB: bf16, larger batch, fast dataloader)
	training_args = TrainingArguments(
	output_dir=train_config.output_dir,
	per_device_train_batch_size=train_config.batch_size,
	gradient_accumulation_steps=train_config.accum_steps,
	learning_rate=train_config.learning_rate,
	lr_scheduler_type=train_config.lr_scheduler_type,
	num_train_epochs=train_config.num_epochs,
	max_steps=train_config.max_steps,
	bf16=train_config.use_bf16,
	gradient_checkpointing=train_config.gradient_checkpointing,
	dataloader_num_workers=train_config.dataloader_num_workers,
	dataloader_pin_memory=train_config.dataloader_pin_memory,
	logging_steps=train_config.log_steps,
	logging_first_step=True,
	logging_nan_inf_filter=True,
	save_steps=train_config.save_steps,
	save_total_limit=train_config.save_total_limit,
	eval_strategy="no", # change if val set provided
	remove_unused_columns=False, # Important because we have custom forward signature
	report_to="wandb",
	log_level="info",
	log_level_replica="info",
	)

	sample_callback = SamplePredictionCallback(
	tokenizer=tokenizer,
	data_collator=data_collator,
	train_dataset=train_dataset,
	sample_every_n_steps=train_config.sample_pred_every_steps,
	num_samples=2,
	prompt="Transcribe the following audio:",
	)

	aggressive_delete_callback = AggressiveDeleteCallback(train_config.output_dir)

	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	data_collator=data_collator,
	callbacks=[sample_callback, aggressive_delete_callback],
	)

	total_steps = train_config.max_steps
	print(f"\n>>> Training: max_steps={total_steps}, batch_size={train_config.batch_size}, "
	f"grad_accum={train_config.accum_steps} (effective batch={train_config.batch_size * train_config.accum_steps})")
	print(f">>> Sample predictions (GT vs predicted transcript) every {train_config.sample_pred_every_steps} steps.\n")

	# Resume from checkpoint if exists
	last_checkpoint = get_last_checkpoint(train_config.output_dir)
	if last_checkpoint is not None:
	print(f">>> Resuming from checkpoint: {last_checkpoint}")
	trainer.train(resume_from_checkpoint=last_checkpoint)
	else:
	trainer.train()

	# Save
	trainer.save_model(train_config.output_dir)
	tokenizer.save_pretrained(train_config.output_dir)
	processor.save_pretrained(train_config.output_dir)

	# Push to Hub
	if train_config.push_to_hub:
	print(f"\n>>> Pushing model to Hugging Face Hub: {train_config.hub_model_id}")
	if train_config.hub_token:
	login(token=train_config.hub_token)

	api = HfApi()

	# Create repo if needed
	# private=True by default for safety, user can adjust
	try:
	api.create_repo(repo_id=train_config.hub_model_id, private=train_config.hub_private_repo, exist_ok=True)
	except Exception as e:
	print(f"Warning: Could not create repo {train_config.hub_model_id}. Error: {e}")

	# Upload model folder
	try:
	api.upload_folder(
	folder_path=train_config.output_dir,
	repo_id=train_config.hub_model_id,
	repo_type="model",
	)

	# Upload code files to ensure custom model works
	for file in ["model.py", "config.py", "data.py", "inference.py"]:
	if os.path.exists(file):
	api.upload_file(
	path_or_fileobj=file,
	path_in_repo=file,
	repo_id=train_config.hub_model_id,
	repo_type="model",
	)

	print(f">>> Successfully pushed to {train_config.hub_model_id}")
	except Exception as e:
	print(f"Error pushing to hub: {e}")

	if __name__ == "__main__":
	train()