Spaces:

Subhadip007
/

researchpilot-api

Sleeping

App Files Files Community

Subhadip007 commited on Apr 14

Commit

76e224e

1 Parent(s): ff94536

feat: overhaul model routing — GLM-5.1 primary, strict 4-model fallback chain, purge all stale refs

Browse files

Files changed (3) hide show

config/settings.py +1 -1
src/api/main.py +1 -1
src/rag/llm_client.py +34 -19

config/settings.py CHANGED Viewed

@@ -82,7 +82,7 @@ GROQ_API_KEY = os.getenv('GROQ_API_KEY')            # Loaded from .env
 HF_API_KEY = os.getenv('HF_API_KEY')
 if HF_API_KEY:
     os.environ["HF_TOKEN"] = HF_API_KEY
-LLM_MODEL_NAME = 'llama-3.3-70b-versatile'          # Groq model ID
 LLM_TEMPERATURE = 0.1                               # Low = More factual/consistent
 LLM_MAX_TOKENS = 2048                               # Max response tokens

 HF_API_KEY = os.getenv('HF_API_KEY')
 if HF_API_KEY:
     os.environ["HF_TOKEN"] = HF_API_KEY
+LLM_MODEL_NAME = 'zai-org/GLM-5.1'                  # Primary model ID
 LLM_TEMPERATURE = 0.1                               # Low = More factual/consistent
 LLM_MAX_TOKENS = 2048                               # Max response tokens

src/api/main.py CHANGED Viewed

@@ -155,7 +155,7 @@ async def health_check(request: Request) -> HealthResponse:
     return HealthResponse(
         status           = "healthy",
-        model            = "llama-3.3-70b-versatile",
         vector_db_size   = qdrant_size,
         bm25_index_size  = bm25_size,
         version          = "1.0.0",

     return HealthResponse(
         status           = "healthy",
+        model            = "zai-org/GLM-5.1",
         vector_db_size   = qdrant_size,
         bm25_index_size  = bm25_size,
         version          = "1.0.0",

src/rag/llm_client.py CHANGED Viewed

@@ -12,12 +12,34 @@ from config.settings import (
 logger = get_logger(__name__)
 class MultiModelClient:
     """
-    Multi-model LLM client with Qwen primary and Groq backup.
-    Supports code routing based on keywords.
     """
     def __init__(self):
         if GROQ_API_KEY:
             self.groq_client = Groq(api_key=GROQ_API_KEY)
@@ -26,18 +48,9 @@ class MultiModelClient:
         self.hf_api_key = HF_API_KEY
-        self.primary_model = "Qwen/Qwen3.5-9B"
-        self.secondary_model = "llama-3.3-70b-versatile"
-        self.code_model = "Qwen/Qwen2.5-Coder-7B-Instruct"
-        self.code_keywords = ["code", "implement", "function", "class", "python", "algorithm", "write a", "script"]
-    def get_model_for_query(self, question: str):
-        q_lower = question.lower()
-        if any(kw in q_lower for kw in self.code_keywords):
-            return [self.code_model, self.primary_model, self.secondary_model]
-        return [self.primary_model, self.secondary_model]
     def _call_hf(self, model_id, messages, temperature, max_tokens, stream=False):
         if not self.hf_api_key:
             raise ValueError("HF_API_KEY not configured")
@@ -108,6 +121,9 @@ class MultiModelClient:
         else:
             return response.choices[0].message.content
     def generate(
         self,
         system_prompt: str,
@@ -119,26 +135,25 @@ class MultiModelClient:
         stream: bool = False
     ):
         """
-        Generate response trying models in priority order.
         Returns a tuple of (result, model_used).
         If stream=True, result is a generator.
         Otherwise, result is a string.
         """
-        models_to_try = self.get_model_for_query(original_query)
         messages = [{"role": "system", "content": system_prompt}]
         if history:
             messages.extend(history)
         messages.append({"role": "user", "content": user_prompt})
-        for model in models_to_try:
             try:
-                is_hf = "Qwen" in model
                 logger.info(f"Attempting model: {model}")
                 if is_hf:
                     out = self._call_hf(model, messages, temperature, max_tokens, stream)
                 else:
                     out = self._call_groq(model, messages, temperature, max_tokens, stream)
                 logger.info(f"Model {model} selected successfully.")
                 return out, model
             except Exception as e:

 logger = get_logger(__name__)
+# ---------------------------------------------------------------------------
+# Model registry — single source of truth for every model ID in the system
+# ---------------------------------------------------------------------------
+# HF models are called via the HuggingFace Router endpoint.
+# Groq models are called via the Groq SDK.
+HF_MODELS = {"zai-org/GLM-5.1", "Qwen/Qwen3.5-9B", "Qwen/Qwen2.5-Coder-7B-Instruct"}
+GROQ_MODELS = {"llama-3.3-70b-versatile"}
 class MultiModelClient:
     """
+    Multi-model LLM client with strict linear fallback.
+    Fallback order (never changes regardless of query content):
+        1. zai-org/GLM-5.1          (HF — primary)
+        2. Qwen/Qwen3.5-9B         (HF — first fallback)
+        3. llama-3.3-70b-versatile  (Groq — second fallback)
+        4. Qwen/Qwen2.5-Coder-7B-Instruct (HF — final fallback)
     """
+    # Strict, ordered fallback chain — do NOT re-order at runtime
+    MODEL_CHAIN = [
+        "zai-org/GLM-5.1",
+        "Qwen/Qwen3.5-9B",
+        "llama-3.3-70b-versatile",
+        "Qwen/Qwen2.5-Coder-7B-Instruct",
+    ]
     def __init__(self):
         if GROQ_API_KEY:
             self.groq_client = Groq(api_key=GROQ_API_KEY)
         self.hf_api_key = HF_API_KEY
+    # ------------------------------------------------------------------
+    # Transport helpers
+    # ------------------------------------------------------------------
     def _call_hf(self, model_id, messages, temperature, max_tokens, stream=False):
         if not self.hf_api_key:
             raise ValueError("HF_API_KEY not configured")
         else:
             return response.choices[0].message.content
+    # ------------------------------------------------------------------
+    # Public API
+    # ------------------------------------------------------------------
     def generate(
         self,
         system_prompt: str,
         stream: bool = False
     ):
         """
+        Generate response trying models in strict fallback order.
         Returns a tuple of (result, model_used).
         If stream=True, result is a generator.
         Otherwise, result is a string.
         """
         messages = [{"role": "system", "content": system_prompt}]
         if history:
             messages.extend(history)
         messages.append({"role": "user", "content": user_prompt})
+        for model in self.MODEL_CHAIN:
             try:
+                is_hf = model in HF_MODELS
                 logger.info(f"Attempting model: {model}")
                 if is_hf:
                     out = self._call_hf(model, messages, temperature, max_tokens, stream)
                 else:
                     out = self._call_groq(model, messages, temperature, max_tokens, stream)
                 logger.info(f"Model {model} selected successfully.")
                 return out, model
             except Exception as e: