Spaces:

Preetham22
/

medi-llm

Sleeping

App Files Files Community

Preetham22 commited on Jul 6

Commit

b136189

1 Parent(s): 9218201

formatting changes

Browse files

Files changed (6) hide show

experiments/csv_file_generator_iterations/generate_emr_csv_final.py +8 -1
experiments/csv_file_generator_iterations/generate_emr_csv_v1.py +12 -7
experiments/csv_file_generator_iterations/generate_emr_csv_v2.py +14 -4
experiments/train_optuna.py +13 -16
src/generate_emr_csv.py +1 -1
src/train.py +1 -1

experiments/csv_file_generator_iterations/generate_emr_csv_final.py CHANGED Viewed

@@ -49,12 +49,14 @@ neutral_noise = [
     "No medications currently administered.",
 ]
 def random_token():
     prefix = "ID"
     letters = ''.join(random.choices(string.ascii_uppercase, k=2))
     digits = ''.join(random.choices(string.digits, k=2))
     return f"{prefix}-{letters}{digits}"
 def get_oxygen(label):
     # Soft blur across classes
     if label == "NORMAL":
@@ -64,18 +66,22 @@ def get_oxygen(label):
     else:
         return random.randint(87, 94)
 def get_temp(label):
     if label == "NORMAL":
         return round(random.uniform(97.5, 99.0), 1)
     else:
         return round(random.uniform(98.8, 102.5), 1)
 def get_age():
     return random.randint(18, 85)
 def get_days():
     return random.randint(1, 10)
 def build_emr(label, i):
     pid = random_token()
     age = f"{get_age()}-year-old"
@@ -112,6 +118,7 @@ def build_emr(label, i):
     random.shuffle(body[1:])  # Keep intro in position 0
     return " ".join(body)
 # Generate records
 records = []
 for label, img_dir in categories.items():
@@ -120,7 +127,7 @@ for label, img_dir in categories.items():
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         text = build_emr(label, i)
         triage = triage_map[label]
-        records.append([f"{label}-{i+1}", image_path, text, triage])
 # Shuffle + write
 random.shuffle(records)

     "No medications currently administered.",
 ]
 def random_token():
     prefix = "ID"
     letters = ''.join(random.choices(string.ascii_uppercase, k=2))
     digits = ''.join(random.choices(string.digits, k=2))
     return f"{prefix}-{letters}{digits}"
 def get_oxygen(label):
     # Soft blur across classes
     if label == "NORMAL":
     else:
         return random.randint(87, 94)
 def get_temp(label):
     if label == "NORMAL":
         return round(random.uniform(97.5, 99.0), 1)
     else:
         return round(random.uniform(98.8, 102.5), 1)
 def get_age():
     return random.randint(18, 85)
 def get_days():
     return random.randint(1, 10)
 def build_emr(label, i):
     pid = random_token()
     age = f"{get_age()}-year-old"
     random.shuffle(body[1:])  # Keep intro in position 0
     return " ".join(body)
 # Generate records
 records = []
 for label, img_dir in categories.items():
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         text = build_emr(label, i)
         triage = triage_map[label]
+        records.append([f"{label}-{i + 1}", image_path, text, triage])
 # Shuffle + write
 random.shuffle(records)

experiments/csv_file_generator_iterations/generate_emr_csv_v1.py CHANGED Viewed

@@ -8,7 +8,7 @@ IMAGES_DIR = CURRENT_DIR.parent / "data" / "images"
 OUTPUT_FILE = CURRENT_DIR.parent / "data" / "emr_records_extended.csv"
 # Sample size
-SAMPLES_PER_CLASS = 300 # 300 * 3 = 900 total
 # Categories and labels
 categories = {
@@ -56,6 +56,8 @@ ambiguous_templates = [
 ]
 # --- Vitals & Symptoms ---
 def get_oxygen(label):
     base_ranges = {
         "COVID": (85, 94),
@@ -67,6 +69,7 @@ def get_oxygen(label):
     oxygen = random.randint(base_min - 1, base_max + 1)
     return min(100, max(80, oxygen))
 def get_temp(label):
     if label == "NORMAL":
         base_min, base_max = 97.0, 98.6
@@ -76,21 +79,23 @@ def get_temp(label):
     # Apply + or - 0.5°F blur and clamp between 95-105°F
     temp = random.uniform(base_min - 0.5, base_max + 0.5)
     return round(min(105.0, max(95.0, temp)), 1)
 def get_days():
     return random.randint(1, 14)
 def get_age():
     return random.randint(18, 80)
 # --- Templates ---
 def build_emr(label, i):
-    name = f"Patient-{label}-{i+1}"
     age = f"{get_age()}-year-old"
     days = get_days()
     temp = get_temp(label)
     oxygen = get_oxygen(label)
     # Symptoms Pool
     symptoms = {
         "COVID": [
@@ -138,12 +143,12 @@ def build_emr(label, i):
     # adding noise to 90% of cases
     if random.random() < 0.9:
-        for _ in range(random.randint(1,2)):
             body.insert(random.randint(0, len(body)), random.choice(noise_sentences))
     random.shuffle(body)
     return " ".join(body)
 # Generate dataset
 records = []
 for label, img_dir in categories.items():
@@ -152,7 +157,7 @@ for label, img_dir in categories.items():
         [f for f in img_dir.glob("*") if f.suffix.lower() in valid_exts]
     )
     for i in range(SAMPLES_PER_CLASS):
-        patient_id = f"{label}-{i+1}"
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         emr_text = build_emr(label, i)
         triage_level = triage_map[label]

 OUTPUT_FILE = CURRENT_DIR.parent / "data" / "emr_records_extended.csv"
 # Sample size
+SAMPLES_PER_CLASS = 300  # 300 * 3 = 900 total
 # Categories and labels
 categories = {
 ]
 # --- Vitals & Symptoms ---
 def get_oxygen(label):
     base_ranges = {
         "COVID": (85, 94),
     oxygen = random.randint(base_min - 1, base_max + 1)
     return min(100, max(80, oxygen))
 def get_temp(label):
     if label == "NORMAL":
         base_min, base_max = 97.0, 98.6
     # Apply + or - 0.5°F blur and clamp between 95-105°F
     temp = random.uniform(base_min - 0.5, base_max + 0.5)
     return round(min(105.0, max(95.0, temp)), 1)
 def get_days():
     return random.randint(1, 14)
 def get_age():
     return random.randint(18, 80)
 # --- Templates ---
 def build_emr(label, i):
+    name = f"Patient-{label}-{i + 1}"
     age = f"{get_age()}-year-old"
     days = get_days()
     temp = get_temp(label)
     oxygen = get_oxygen(label)
     # Symptoms Pool
     symptoms = {
         "COVID": [
     # adding noise to 90% of cases
     if random.random() < 0.9:
+        for _ in range(random.randint(1, 2)):
             body.insert(random.randint(0, len(body)), random.choice(noise_sentences))
     random.shuffle(body)
     return " ".join(body)
 # Generate dataset
 records = []
 for label, img_dir in categories.items():
         [f for f in img_dir.glob("*") if f.suffix.lower() in valid_exts]
     )
     for i in range(SAMPLES_PER_CLASS):
+        patient_id = f"{label}-{i + 1}"
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         emr_text = build_emr(label, i)
         triage_level = triage_map[label]

experiments/csv_file_generator_iterations/generate_emr_csv_v2.py CHANGED Viewed

@@ -39,6 +39,7 @@ neutral_noise = [
     "Patient expresses concern about possible flu.",
 ]
 # ---Patient random token genrator ---
 def random_token():
     prefix = "ID"
@@ -46,11 +47,13 @@ def random_token():
     digits = ''.join(random.choices(string.digits, k=2))
     return f"{prefix}-{letters}{digits}"
 # Vitals (blurred)
 def get_oxygen(label):
     base = {"COVID": (85, 94), "VIRAL PNEUMONIA": (89, 96), "NORMAL": (96, 99)}
     min_, max_ = base[label]
-    return min(100, max(80, random.randint(min_-1, max_+1)))
 def get_temp(label):
     if label == "NORMAL":
@@ -59,8 +62,14 @@ def get_temp(label):
         min_, max_ = 99.0, 103.0
     return round(random.uniform(min_ - 0.6, max_ + 0.6), 1)
-def get_age(): return random.randint(18, 85)
-def get_days(): return random.randint(1, 10)
 # EMR generator
 def build_emr(label, i):
@@ -102,6 +111,7 @@ def build_emr(label, i):
     random.shuffle(body[1:])
     return " ".join(body)
 # Generate records
 records = []
 for label, img_dir in categories.items():
@@ -110,7 +120,7 @@ for label, img_dir in categories.items():
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         text = build_emr(label, i)
         triage = triage_map[label]
-        records.append([f"{label}-{i+1}", image_path, text, triage])
 # Shuffle + Write
 random.shuffle(records)

     "Patient expresses concern about possible flu.",
 ]
 # ---Patient random token genrator ---
 def random_token():
     prefix = "ID"
     digits = ''.join(random.choices(string.digits, k=2))
     return f"{prefix}-{letters}{digits}"
 # Vitals (blurred)
 def get_oxygen(label):
     base = {"COVID": (85, 94), "VIRAL PNEUMONIA": (89, 96), "NORMAL": (96, 99)}
     min_, max_ = base[label]
+    return min(100, max(80, random.randint(min_ - 1, max_ + 1)))
 def get_temp(label):
     if label == "NORMAL":
         min_, max_ = 99.0, 103.0
     return round(random.uniform(min_ - 0.6, max_ + 0.6), 1)
+def get_age():
+    return random.randint(18, 85)
+def get_days():
+    return random.randint(1, 10)
 # EMR generator
 def build_emr(label, i):
     random.shuffle(body[1:])
     return " ".join(body)
 # Generate records
 records = []
 for label, img_dir in categories.items():
         image_path = str(random.choice(image_files).relative_to(IMAGES_DIR.parent.parent))
         text = build_emr(label, i)
         triage = triage_map[label]
+        records.append([f"{label}-{i + 1}", image_path, text, triage])
 # Shuffle + Write
 random.shuffle(records)

experiments/train_optuna.py CHANGED Viewed

@@ -1,18 +1,18 @@
 import os
 import sys
-import torch
 import optuna
 import yaml
 import json
-import wandb
 import argparse
-import matplotlib.pyplot as plt
-import seaborn as sns
 from tqdm import tqdm
-from torch.utils.data import DataLoader, Subset
 from torch.nn import CrossEntropyLoss
-from torch.optim import Adam
 from sklearn.model_selection import StratifiedShuffleSplit
 from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
@@ -30,13 +30,14 @@ from src.multimodal_model import MediLLMModel
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 def stratified_split(dataset, val_ratio=0.2, seed=42, label_column="triage_level"):
-    label_map = {"low": 0, "medium": 1, "high": 2}
     labels = [dataset.df.iloc[i][label_column] for i in range(len(dataset))]
     sss = StratifiedShuffleSplit(n_splits=1, test_size=val_ratio, random_state=seed)
     train_idx, val_idx = next(sss.split(range(len(dataset)), labels))
     return Subset(dataset, train_idx), Subset(dataset, val_idx)
 def objective(trial, mode):
     wandb.init(
         project=f"mediLLM-tune-{mode}",
@@ -69,7 +70,7 @@ def objective(trial, mode):
     for epoch in range(2):
         model.train()
-        loop = tqdm(train_loader, desc=f"[{mode}] Epoch {epoch+1}/2", leave=False)
         for batch in loop:
             input_ids = batch.get("input_ids", None)
             attention_mask = batch.get("attention_mask", None)
@@ -136,18 +137,19 @@ def objective(trial, mode):
     plt.ylabel("True")
     wandb.log({f"{mode}_confusion_matrix/trial_{trial.number}": wandb.Image(plt)})
     plt.close()
     return f1
 def get_args():
     parser = argparse.ArgumentParser(description="Run Optuna hyperparameter search")
     parser.add_argument("--n_trials", type=int, default=10, help="Number of Optuna trials to run")
     parser.add_argument("--mode", type=str, choices=["text", "image", "multimodal"], required=True, help="Input mode")
     return parser.parse_args()
-if __name__=="__main__":
     args = get_args()
-    mode = args.mode
     study = optuna.create_study(
         study_name=f"mediLLM_{mode}_optuna",
@@ -160,7 +162,6 @@ if __name__=="__main__":
             finally:
                 wandb.finish()
                 pbar.update(1)
         study.optimize(wrapped_objective, n_trials=args.n_trials)
     print(f"✅ Best F1 score for {mode}: {study.best_value}")
@@ -196,7 +197,6 @@ if __name__=="__main__":
     # Export to config.yaml
     config_path = os.path.join(base_dir, "config", "config.yaml")
     # Make sure config directory exists in the root
     os.makedirs(os.path.dirname(config_path), exist_ok=True)
@@ -218,6 +218,3 @@ if __name__=="__main__":
         yaml.dump(config, f, sort_keys=False)
     print(f"✅ Best hyperparameters for [{mode}] saved in config.yaml")

 import os
 import sys
+import torch
 import optuna
 import yaml
 import json
+import wandb
 import argparse
+import matplotlib.pyplot as plt
+import seaborn as sns
 from tqdm import tqdm
+from torch.utils.data import DataLoader, Subset
 from torch.nn import CrossEntropyLoss
+from torch.optim import Adam
 from sklearn.model_selection import StratifiedShuffleSplit
 from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 def stratified_split(dataset, val_ratio=0.2, seed=42, label_column="triage_level"):
     labels = [dataset.df.iloc[i][label_column] for i in range(len(dataset))]
     sss = StratifiedShuffleSplit(n_splits=1, test_size=val_ratio, random_state=seed)
     train_idx, val_idx = next(sss.split(range(len(dataset)), labels))
     return Subset(dataset, train_idx), Subset(dataset, val_idx)
 def objective(trial, mode):
     wandb.init(
         project=f"mediLLM-tune-{mode}",
     for epoch in range(2):
         model.train()
+        loop = tqdm(train_loader, desc=f"[{mode}] Epoch {epoch + 1}/2", leave=False)
         for batch in loop:
             input_ids = batch.get("input_ids", None)
             attention_mask = batch.get("attention_mask", None)
     plt.ylabel("True")
     wandb.log({f"{mode}_confusion_matrix/trial_{trial.number}": wandb.Image(plt)})
     plt.close()
     return f1
 def get_args():
     parser = argparse.ArgumentParser(description="Run Optuna hyperparameter search")
     parser.add_argument("--n_trials", type=int, default=10, help="Number of Optuna trials to run")
     parser.add_argument("--mode", type=str, choices=["text", "image", "multimodal"], required=True, help="Input mode")
     return parser.parse_args()
+if __name__ == "__main__":
     args = get_args()
+    mode = args.mode
     study = optuna.create_study(
         study_name=f"mediLLM_{mode}_optuna",
             finally:
                 wandb.finish()
                 pbar.update(1)
         study.optimize(wrapped_objective, n_trials=args.n_trials)
     print(f"✅ Best F1 score for {mode}: {study.best_value}")
     # Export to config.yaml
     config_path = os.path.join(base_dir, "config", "config.yaml")
     # Make sure config directory exists in the root
     os.makedirs(os.path.dirname(config_path), exist_ok=True)
         yaml.dump(config, f, sort_keys=False)
     print(f"✅ Best hyperparameters for [{mode}] saved in config.yaml")

src/generate_emr_csv.py CHANGED Viewed

@@ -137,7 +137,7 @@ def generate_dataset():
             )
             text = build_emr(label, i)
             triage = triage_map[label]
-            records.append([f"{label}-{i+1}", image_path, text, triage])
     # Shuffle + write
     random.shuffle(records)

             )
             text = build_emr(label, i)
             triage = triage_map[label]
+            records.append([f"{label}-{i + 1}", image_path, text, triage])
     # Shuffle + write
     random.shuffle(records)

src/train.py CHANGED Viewed

@@ -123,7 +123,7 @@ def train_model(mode="multimodal"):
         all_preds, all_labels = [], []
         for batch in tqdm(
-            train_loader, desc=f"[{mode}] Epoch {epoch+1}"
         ):  # Load a batch of text, images, and labels to GPU or CPU
             input_ids = batch.get("input_ids", None)
             attention_mask = batch.get("attention_mask", None)

         all_preds, all_labels = [], []
         for batch in tqdm(
+            train_loader, desc=f"[{mode}] Epoch {epoch + 1}"
         ):  # Load a batch of text, images, and labels to GPU or CPU
             input_ids = batch.get("input_ids", None)
             attention_mask = batch.get("attention_mask", None)