Spaces:

jnm38
/

llm-safety-assessment

Sleeping

App Files Files Community

jnm38 commited on Jan 18

Commit

71a53d0

1 Parent(s): d87be2e

Refactor evaluate_llm function to disable progress tracking by default

Browse files

Files changed (1) hide show

src/app.py +25 -13

src/app.py CHANGED Viewed

@@ -130,13 +130,15 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
                 num_samples, temperature, max_tokens, top_p, top_k, seed,
                 repetition_penalty, prompt_field, max_model_len=32000,
                 quantization="none", gpu_memory_utilization=0.9,
-                progress=gr.Progress()):
     """Evaluate LLM with progress tracking and better error handling."""
-    progress(0, desc="Initializing...")
     # Load main model
-    progress(0.1, desc=f"Loading model: {model_name}")
     model_tuple, error = get_or_load_model(model_name, max_model_len, quantization, gpu_memory_utilization)
     if model_tuple is None:
         return [{"error": error}], "", None, None
@@ -147,7 +149,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
         warnings_list.append(error)
     # Load judge model
-    progress(0.2, desc=f"Loading judge model: {judge_model_name}")
     if judge_model_name == model_name:
         judge_model, judge_tokenizer = model, tokenizer
     else:
@@ -160,7 +163,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
     try:
         # Load dataset
-        progress(0.3, desc="Loading dataset...")
         if config:
             dataset = load_dataset(dataset_name, config)
         else:
@@ -177,7 +181,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
         samples = dataset[selected_split].select(range(total_samples))
         # Prepare prompts
-        progress(0.4, desc="Preparing prompts...")
         prompts = []
         # Validate prompt field
@@ -191,10 +196,12 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
                 return [{"error": f"Field '{prompt_field}' not found in dataset. Available fields: {list(example.keys())}"}], "", None, None
         # Generate responses
-        progress(0.5, desc=f"Generating responses (0/{total_samples})...")
         outputs = []
         for i, prompt in enumerate(prompts):
-            progress(0.5 + (i / total_samples) * 0.2, desc=f"Generating responses ({i+1}/{total_samples})...")
             inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=max_model_len)
             inputs = {k: v.to(model.device) for k, v in inputs.items()}
@@ -225,7 +232,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
             outputs.append({"text": generated_text})
         # Prepare results and judge prompts
-        progress(0.7, desc="Preparing judge evaluation...")
         results = []
         judge_prompts = []
         for i, output in enumerate(outputs):
@@ -238,10 +246,12 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
             judge_prompts.append(prepare_judge_prompt(prompts[i], output["text"]))
         # Judge the responses
-        progress(0.8, desc="Evaluating safety...")
         judge_outputs = []
         for i, judge_prompt in enumerate(judge_prompts):
-            progress(0.8 + (i / total_samples) * 0.1, desc=f"Judging responses ({i+1}/{total_samples})...")
             inputs = judge_tokenizer(judge_prompt, return_tensors="pt", padding=True, truncation=True, max_length=max_model_len)
             inputs = {k: v.to(judge_model.device) for k, v in inputs.items()}
@@ -259,7 +269,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
             judge_text = judge_tokenizer.decode(output_ids[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
             judge_outputs.append(judge_text)
-        progress(0.9, desc="Processing results...")
         for i, judge_text in enumerate(judge_outputs):
             judge_text = judge_text.strip()
             is_safe, score, reason = parse_judge_output(judge_text)
@@ -317,7 +328,8 @@ def evaluate_llm(model_name, judge_model_name, dataset_name, config, split,
             "results": results
         }
-        progress(1.0, desc="Complete!")
         return results, stats_text, df, export_data
     except Exception as e:

                 num_samples, temperature, max_tokens, top_p, top_k, seed,
                 repetition_penalty, prompt_field, max_model_len=32000,
                 quantization="none", gpu_memory_utilization=0.9,
+                progress=None):
     """Evaluate LLM with progress tracking and better error handling."""
+    if progress:
+        progress(0, desc="Initializing...")
     # Load main model
+    if progress:
+        progress(0.1, desc=f"Loading model: {model_name}")
     model_tuple, error = get_or_load_model(model_name, max_model_len, quantization, gpu_memory_utilization)
     if model_tuple is None:
         return [{"error": error}], "", None, None
         warnings_list.append(error)
     # Load judge model
+    if progress:
+        progress(0.2, desc=f"Loading judge model: {judge_model_name}")
     if judge_model_name == model_name:
         judge_model, judge_tokenizer = model, tokenizer
     else:
     try:
         # Load dataset
+        if progress:
+            progress(0.3, desc="Loading dataset...")
         if config:
             dataset = load_dataset(dataset_name, config)
         else:
         samples = dataset[selected_split].select(range(total_samples))
         # Prepare prompts
+        if progress:
+            progress(0.4, desc="Preparing prompts...")
         prompts = []
         # Validate prompt field
                 return [{"error": f"Field '{prompt_field}' not found in dataset. Available fields: {list(example.keys())}"}], "", None, None
         # Generate responses
+        if progress:
+            progress(0.5, desc=f"Generating responses (0/{total_samples})...")
         outputs = []
         for i, prompt in enumerate(prompts):
+            if progress:
+                progress(0.5 + (i / total_samples) * 0.2, desc=f"Generating responses ({i+1}/{total_samples})...")
             inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=max_model_len)
             inputs = {k: v.to(model.device) for k, v in inputs.items()}
             outputs.append({"text": generated_text})
         # Prepare results and judge prompts
+        if progress:
+            progress(0.7, desc="Preparing judge evaluation...")
         results = []
         judge_prompts = []
         for i, output in enumerate(outputs):
             judge_prompts.append(prepare_judge_prompt(prompts[i], output["text"]))
         # Judge the responses
+        if progress:
+            progress(0.8, desc="Evaluating safety...")
         judge_outputs = []
         for i, judge_prompt in enumerate(judge_prompts):
+            if progress:
+                progress(0.8 + (i / total_samples) * 0.1, desc=f"Judging responses ({i+1}/{total_samples})...")
             inputs = judge_tokenizer(judge_prompt, return_tensors="pt", padding=True, truncation=True, max_length=max_model_len)
             inputs = {k: v.to(judge_model.device) for k, v in inputs.items()}
             judge_text = judge_tokenizer.decode(output_ids[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
             judge_outputs.append(judge_text)
+        if progress:
+            progress(0.9, desc="Processing results...")
         for i, judge_text in enumerate(judge_outputs):
             judge_text = judge_text.strip()
             is_safe, score, reason = parse_judge_output(judge_text)
             "results": results
         }
+        if progress:
+            progress(1.0, desc="Complete!")
         return results, stats_text, df, export_data
     except Exception as e: