Spaces:

arterm-sedov
/

cmw-copilot

Running

arterm-sedov commited on 29 days ago

Commit

9f00a7e

1 Parent(s): 97edb29

Refactor pricing calculations to use interquartile mean for OpenRouter models

- Updated the pricing logic in `LLMManager` and `openrouter_pricing.py` to calculate interquartile mean pricing across endpoints, improving accuracy by reducing the impact of outliers.
- Adjusted related documentation to reflect the change from median to interquartile mean pricing methodology, ensuring clarity on pricing sources and calculations.
- Modified JSON pricing data for several models to align with the new interquartile mean approach.

Files changed (4) hide show

agent_ng/llm_manager.py +2 -2
agent_ng/openrouter_pricing.json +35 -35
agent_ng/utils/openrouter_pricing.py +32 -23
docs/OPENROUTER_PRICING.md +3 -2

agent_ng/llm_manager.py CHANGED Viewed

@@ -227,13 +227,13 @@ class LLMManager:
                 if api_key:
                     base_url = os.getenv(config.api_base_env or "OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1")
                     self._log_initialization(
-                        f"Fetching pricing via endpoints API for {len(model_names)} OpenRouter models (using median pricing)...", "INFO"
                     )
                     # Import here to avoid circular dependency
                     from agent_ng.utils.openrouter_pricing import fetch_pricing_via_endpoints
-                    # Fetch pricing using /endpoints API and use median across endpoints
                     pricing_map = fetch_pricing_via_endpoints(model_names, api_key, base_url)
                     if pricing_map:
                         pricing_source = "API"

                 if api_key:
                     base_url = os.getenv(config.api_base_env or "OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1")
                     self._log_initialization(
+                        f"Fetching pricing via endpoints API for {len(model_names)} OpenRouter models (using interquartile mean pricing)...", "INFO"
                     )
                     # Import here to avoid circular dependency
                     from agent_ng.utils.openrouter_pricing import fetch_pricing_via_endpoints
+                    # Fetch pricing using /endpoints API and use interquartile mean across endpoints
                     pricing_map = fetch_pricing_via_endpoints(model_names, api_key, base_url)
                     if pricing_map:
                         pricing_source = "API"

agent_ng/openrouter_pricing.json CHANGED Viewed

@@ -1,27 +1,27 @@
 {
   "deepseek/deepseek-v3.1-terminus:exacto": {
-    "prompt_price_per_1k": 0.00025,
-    "completion_price_per_1k": 0.00095
   },
   "deepseek/deepseek-v3.1-terminus": {
-    "prompt_price_per_1k": 0.00025,
-    "completion_price_per_1k": 0.00095
   },
   "deepseek/deepseek-v3.2-speciale": {
-    "prompt_price_per_1k": 0.00028000000000000003,
-    "completion_price_per_1k": 0.00041
   },
   "deepseek/deepseek-chat-v3.1:free": {
-    "prompt_price_per_1k": 0.00027,
-    "completion_price_per_1k": 0.001
   },
   "deepseek/deepseek-chat-v3.1": {
-    "prompt_price_per_1k": 0.00027,
-    "completion_price_per_1k": 0.001
   },
   "deepseek/deepseek-r1-0528": {
-    "prompt_price_per_1k": 0.0007999999999999999,
-    "completion_price_per_1k": 0.0025
   },
   "x-ai/grok-4-fast:free": {
     "prompt_price_per_1k": 0.00019999999999999998,
@@ -36,12 +36,12 @@
     "completion_price_per_1k": 0.0015
   },
   "qwen/qwen3-coder:free": {
-    "prompt_price_per_1k": 0.00039999999999999996,
-    "completion_price_per_1k": 0.0017
   },
   "qwen/qwen3-coder": {
-    "prompt_price_per_1k": 0.00039999999999999996,
-    "completion_price_per_1k": 0.0017
   },
   "qwen/qwen3-coder-flash": {
     "prompt_price_per_1k": 0.0003,
@@ -56,36 +56,36 @@
     "completion_price_per_1k": 0.005
   },
   "qwen/qwen3-coder:exacto": {
-    "prompt_price_per_1k": 0.00039999999999999996,
-    "completion_price_per_1k": 0.0017
   },
   "qwen/qwen-plus-2025-07-28": {
     "prompt_price_per_1k": 0.00039999999999999996,
     "completion_price_per_1k": 0.0012
   },
   "moonshotai/kimi-k2-0905:exacto": {
-    "prompt_price_per_1k": 0.0006,
-    "completion_price_per_1k": 0.0025
   },
   "moonshotai/kimi-k2-0905": {
-    "prompt_price_per_1k": 0.0006,
-    "completion_price_per_1k": 0.0025
   },
   "moonshotai/kimi-k2-thinking": {
-    "prompt_price_per_1k": 0.0006,
     "completion_price_per_1k": 0.0025
   },
   "z-ai/glm-4.6:exacto": {
-    "prompt_price_per_1k": 0.00055,
-    "completion_price_per_1k": 0.0021899999999999997
   },
   "z-ai/glm-4.6": {
-    "prompt_price_per_1k": 0.00055,
-    "completion_price_per_1k": 0.0021899999999999997
   },
   "z-ai/glm-4.7": {
-    "prompt_price_per_1k": 0.00050375,
-    "completion_price_per_1k": 0.0020499999999999997
   },
   "google/gemini-3-flash-preview": {
     "prompt_price_per_1k": 0.0005,
@@ -96,16 +96,16 @@
     "completion_price_per_1k": 0.012
   },
   "anthropic/claude-sonnet-4.5": {
-    "prompt_price_per_1k": 0.003,
     "completion_price_per_1k": 0.015000000000000001
   },
   "openai/gpt-oss-120b:exacto": {
-    "prompt_price_per_1k": 9.999999999999999e-05,
-    "completion_price_per_1k": 0.0006
   },
   "openai/gpt-oss-120b": {
-    "prompt_price_per_1k": 9.999999999999999e-05,
-    "completion_price_per_1k": 0.0006
   },
   "openai/gpt-5-mini": {
     "prompt_price_per_1k": 0.00025,
@@ -124,7 +124,7 @@
     "completion_price_per_1k": 0.0009
   },
   "minimax/minimax-m2.1": {
-    "prompt_price_per_1k": 0.0003,
     "completion_price_per_1k": 0.0012
   }
 }

 {
   "deepseek/deepseek-v3.1-terminus:exacto": {
+    "prompt_price_per_1k": 0.000245,
+    "completion_price_per_1k": 0.000925
   },
   "deepseek/deepseek-v3.1-terminus": {
+    "prompt_price_per_1k": 0.000245,
+    "completion_price_per_1k": 0.000925
   },
   "deepseek/deepseek-v3.2-speciale": {
+    "prompt_price_per_1k": 0.00031666666666666665,
+    "completion_price_per_1k": 0.0006699999999999999
   },
   "deepseek/deepseek-chat-v3.1:free": {
+    "prompt_price_per_1k": 0.00034500000000000004,
+    "completion_price_per_1k": 0.001125
   },
   "deepseek/deepseek-chat-v3.1": {
+    "prompt_price_per_1k": 0.00034500000000000004,
+    "completion_price_per_1k": 0.001125
   },
   "deepseek/deepseek-r1-0528": {
+    "prompt_price_per_1k": 0.0012642857142857143,
+    "completion_price_per_1k": 0.003375714285714286
   },
   "x-ai/grok-4-fast:free": {
     "prompt_price_per_1k": 0.00019999999999999998,
     "completion_price_per_1k": 0.0015
   },
   "qwen/qwen3-coder:free": {
+    "prompt_price_per_1k": 0.0004875,
+    "completion_price_per_1k": 0.00166625
   },
   "qwen/qwen3-coder": {
+    "prompt_price_per_1k": 0.0004875,
+    "completion_price_per_1k": 0.00166625
   },
   "qwen/qwen3-coder-flash": {
     "prompt_price_per_1k": 0.0003,
     "completion_price_per_1k": 0.005
   },
   "qwen/qwen3-coder:exacto": {
+    "prompt_price_per_1k": 0.0004875,
+    "completion_price_per_1k": 0.00166625
   },
   "qwen/qwen-plus-2025-07-28": {
     "prompt_price_per_1k": 0.00039999999999999996,
     "completion_price_per_1k": 0.0012
   },
   "moonshotai/kimi-k2-0905:exacto": {
+    "prompt_price_per_1k": 0.0006557142857142856,
+    "completion_price_per_1k": 0.0026414285714285715
   },
   "moonshotai/kimi-k2-0905": {
+    "prompt_price_per_1k": 0.0006557142857142856,
+    "completion_price_per_1k": 0.0026414285714285715
   },
   "moonshotai/kimi-k2-thinking": {
+    "prompt_price_per_1k": 0.0005928571428571429,
     "completion_price_per_1k": 0.0025
   },
   "z-ai/glm-4.6:exacto": {
+    "prompt_price_per_1k": 0.0005153571428571428,
+    "completion_price_per_1k": 0.0020628571428571428
   },
   "z-ai/glm-4.6": {
+    "prompt_price_per_1k": 0.0005153571428571428,
+    "completion_price_per_1k": 0.0020628571428571428
   },
   "z-ai/glm-4.7": {
+    "prompt_price_per_1k": 0.0005034375,
+    "completion_price_per_1k": 0.002085
   },
   "google/gemini-3-flash-preview": {
     "prompt_price_per_1k": 0.0005,
     "completion_price_per_1k": 0.012
   },
   "anthropic/claude-sonnet-4.5": {
+    "prompt_price_per_1k": 0.0030000000000000005,
     "completion_price_per_1k": 0.015000000000000001
   },
   "openai/gpt-oss-120b:exacto": {
+    "prompt_price_per_1k": 0.00012,
+    "completion_price_per_1k": 0.0005236363636363636
   },
   "openai/gpt-oss-120b": {
+    "prompt_price_per_1k": 0.00012,
+    "completion_price_per_1k": 0.0005236363636363636
   },
   "openai/gpt-5-mini": {
     "prompt_price_per_1k": 0.00025,
     "completion_price_per_1k": 0.0009
   },
   "minimax/minimax-m2.1": {
+    "prompt_price_per_1k": 0.00029857142857142853,
     "completion_price_per_1k": 0.0012
   }
 }

agent_ng/utils/openrouter_pricing.py CHANGED Viewed

@@ -139,17 +139,18 @@ def extract_pricing_from_model(model: dict[str, Any]) -> tuple[float, float]:
     return (prompt_per_1k, completion_per_1k)
-def median_endpoint_pricing(endpoints: list[dict[str, Any]]) -> tuple[float, float]:
-    """Calculate median pricing across multiple endpoints.
-    Uses median instead of average to be less affected by outliers and better
-    reflect typical costs users experience.
     Args:
         endpoints: List of endpoint dictionaries
     Returns:
-        Tuple of (median_prompt_price_per_1k, median_completion_price_per_1k) in USD
     """
     if not endpoints:
         return (0.0, 0.0)
@@ -171,23 +172,31 @@ def median_endpoint_pricing(endpoints: list[dict[str, Any]]) -> tuple[float, flo
         if completion_per_token > 0:
             completion_prices.append(completion_per_token * 1000.0)  # Convert per token to per 1K
-    # Calculate median (middle value when sorted)
-    def _median(values: list[float]) -> float:
         if not values:
             return 0.0
         sorted_values = sorted(values)
         n = len(sorted_values)
-        if n % 2 == 0:
-            # Even number of values: average of two middle values
-            return (sorted_values[n // 2 - 1] + sorted_values[n // 2]) / 2.0
-        else:
-            # Odd number of values: middle value
-            return sorted_values[n // 2]
-    median_prompt = _median(prompt_prices)
-    median_completion = _median(completion_prices)
-    return (median_prompt, median_completion)
 def parse_model_slug(model_slug: str) -> tuple[str | None, str | None]:
@@ -324,8 +333,8 @@ def fetch_pricing_via_endpoints(
             logger.debug("No endpoints found for %s/%s", author, model_slug)
             continue
-        # Median pricing across endpoints
-        prompt_price, completion_price = median_endpoint_pricing(endpoints)
         if prompt_price > 0 or completion_price > 0:
             pricing_map[model_name] = {
                 "prompt_price_per_1k": prompt_price,
@@ -415,10 +424,10 @@ def fetch_pricing_for_models(
             if author and model_slug:
                 endpoints = fetch_model_endpoints(author, model_slug, api_key, base_url)
                 if endpoints:
-                    prompt_price, completion_price = median_endpoint_pricing(endpoints)
                     if prompt_price > 0 or completion_price > 0:
                         logger.info(
-                            "Model %s: prompt=$%.6f/1K, completion=$%.6f/1K (median from %d endpoints)",
                             slug,
                             prompt_price,
                             completion_price,
@@ -498,10 +507,10 @@ def update_llm_config_with_pricing(
             if author and model_slug:
                 endpoints = fetch_model_endpoints(author, model_slug, api_key, base_url)
                 if endpoints:
-                    prompt_price, completion_price = median_endpoint_pricing(endpoints)
                     if prompt_price > 0 or completion_price > 0:
                         logger.info(
-                            "Model %s: prompt=$%.6f/1K, completion=$%.6f/1K (median from %d endpoints)",
                             slug,
                             prompt_price,
                             completion_price,
@@ -609,7 +618,7 @@ def main() -> None:
             sys.exit(1)
         model_names = [m.get("model", "") for m in config.models if m.get("model")]
-        logger.info("Fetching pricing via endpoints API for %d models (using median pricing)...", len(model_names))
         pricing_map = fetch_pricing_via_endpoints(model_names, api_key, base_url)
     except Exception as exc:  # pragma: no cover - CLI helper only
         logger.exception("Failed to fetch pricing: %s", exc)

     return (prompt_per_1k, completion_per_1k)
+def interquartile_mean_endpoint_pricing(endpoints: list[dict[str, Any]]) -> tuple[float, float]:
+    """Calculate interquartile mean pricing across multiple endpoints.
+    Uses interquartile mean (average of 25th-75th percentile) to remove outliers
+    on both ends while better reflecting typical costs users experience.
+    More robust than average, more representative than median.
     Args:
         endpoints: List of endpoint dictionaries
     Returns:
+        Tuple of (iq_mean_prompt_price_per_1k, iq_mean_completion_price_per_1k) in USD
     """
     if not endpoints:
         return (0.0, 0.0)
         if completion_per_token > 0:
             completion_prices.append(completion_per_token * 1000.0)  # Convert per token to per 1K
+    def _interquartile_mean(values: list[float]) -> float:
+        """Calculate interquartile mean (average of 25th-75th percentile)."""
         if not values:
             return 0.0
+        if len(values) <= 2:
+            # Too few values, just return average
+            return sum(values) / len(values)
         sorted_values = sorted(values)
         n = len(sorted_values)
+        # Calculate quartile indices
+        q1_idx = n // 4
+        q3_idx = (3 * n) // 4
+        # Get interquartile range (25th to 75th percentile)
+        iq_range = sorted_values[q1_idx:q3_idx + 1]
+        # Return average of interquartile range
+        return sum(iq_range) / len(iq_range)
+    iq_mean_prompt = _interquartile_mean(prompt_prices)
+    iq_mean_completion = _interquartile_mean(completion_prices)
+    return (iq_mean_prompt, iq_mean_completion)
 def parse_model_slug(model_slug: str) -> tuple[str | None, str | None]:
             logger.debug("No endpoints found for %s/%s", author, model_slug)
             continue
+        # Interquartile mean pricing across endpoints (removes outliers)
+        prompt_price, completion_price = interquartile_mean_endpoint_pricing(endpoints)
         if prompt_price > 0 or completion_price > 0:
             pricing_map[model_name] = {
                 "prompt_price_per_1k": prompt_price,
             if author and model_slug:
                 endpoints = fetch_model_endpoints(author, model_slug, api_key, base_url)
                 if endpoints:
+                    prompt_price, completion_price = interquartile_mean_endpoint_pricing(endpoints)
                     if prompt_price > 0 or completion_price > 0:
                         logger.info(
+                            "Model %s: prompt=$%.6f/1K, completion=$%.6f/1K (interquartile mean from %d endpoints)",
                             slug,
                             prompt_price,
                             completion_price,
             if author and model_slug:
                 endpoints = fetch_model_endpoints(author, model_slug, api_key, base_url)
                 if endpoints:
+                    prompt_price, completion_price = interquartile_mean_endpoint_pricing(endpoints)
                     if prompt_price > 0 or completion_price > 0:
                         logger.info(
+                            "Model %s: prompt=$%.6f/1K, completion=$%.6f/1K (interquartile mean from %d endpoints)",
                             slug,
                             prompt_price,
                             completion_price,
             sys.exit(1)
         model_names = [m.get("model", "") for m in config.models if m.get("model")]
+        logger.info("Fetching pricing via endpoints API for %d models (using interquartile mean pricing)...", len(model_names))
         pricing_map = fetch_pricing_via_endpoints(model_names, api_key, base_url)
     except Exception as exc:  # pragma: no cover - CLI helper only
         logger.exception("Failed to fetch pricing: %s", exc)

docs/OPENROUTER_PRICING.md CHANGED Viewed

@@ -4,7 +4,7 @@
 - **Pricing source**: For OpenRouter models we use the `/endpoints` API
   [`GET /models/{author}/{slug}/endpoints`](https://openrouter.ai/docs/api/api-reference/endpoints/list-endpoints)
-  which provides endpoint-specific pricing. We use **median pricing** across all endpoints for each model to get realistic pricing (less affected by outliers than average).
 - **API format**: OpenRouter API returns prices **per token** (e.g., `"0.00003"` = $0.00003 per token).
   We convert to per 1K tokens: `price_per_1k = price_per_token * 1000`
 - **When**: Once per agent run, at startup, inside `LLMManager` (if enabled)
@@ -20,7 +20,8 @@
 3. **Fallback chain** (tries each in order until pricing is found):
    - **Step 1: API fetch** (if enabled):
      - Fetches endpoints for each configured model from `/models/{author}/{slug}/endpoints`
-     - Uses median pricing across all endpoints for each model (less affected by outliers)
      - Updates model configs in memory: `prompt_price_per_1k`, `completion_price_per_1k`
    - **Step 2: JSON snapshot** (if API fails or disabled):
      - Loads pricing from `agent_ng/openrouter_pricing.json` (if exists)

 - **Pricing source**: For OpenRouter models we use the `/endpoints` API
   [`GET /models/{author}/{slug}/endpoints`](https://openrouter.ai/docs/api/api-reference/endpoints/list-endpoints)
+  which provides endpoint-specific pricing. We use **interquartile mean** (average of 25th-75th percentile) across all endpoints for each model to get realistic pricing that removes outliers on both ends while better reflecting typical costs.
 - **API format**: OpenRouter API returns prices **per token** (e.g., `"0.00003"` = $0.00003 per token).
   We convert to per 1K tokens: `price_per_1k = price_per_token * 1000`
 - **When**: Once per agent run, at startup, inside `LLMManager` (if enabled)
 3. **Fallback chain** (tries each in order until pricing is found):
    - **Step 1: API fetch** (if enabled):
      - Fetches endpoints for each configured model from `/models/{author}/{slug}/endpoints`
+     - Uses interquartile mean pricing (average of 25th-75th percentile) across all endpoints for each model
+     - Removes outliers on both ends while reflecting typical costs
      - Updates model configs in memory: `prompt_price_per_1k`, `completion_price_per_1k`
    - **Step 2: JSON snapshot** (if API fails or disabled):
      - Loads pricing from `agent_ng/openrouter_pricing.json` (if exists)