Рост cost-per-request

Сценарий: вы дописали 200 строк системного промпта, или агент начал в каждый запрос класть весь diff репозитория. Общий бюджет ещё не пробит, но cost / request вырос в 3 раза — и через день вы это заметите по счёту.

import os, json, time, statistics, requests

W = "/tmp/cpr.json"

def observe(usd_per_request):
    s = (json.load(open(W)) if os.path.exists(W) else {"vals": []})
    s["vals"] = (s["vals"] + [usd_per_request])[-500:]
    if len(s["vals"]) > 100:
        med    = statistics.median(s["vals"][:-50])
        recent = statistics.median(s["vals"][-50:])
        if recent > med * 2 and recent > 0.001:
            push("💵 cost/req растёт",
                 f"Медиана за 500: ${med:.4f}\n"
                 f"Медиана за последние 50: ${recent:.4f} ({recent/med:.1f}×)",
                 priority=8)
    json.dump(s, open(W, "w"))

def push(t, m, p):
    requests.post(f"{os.environ['NOTIFLY_URL']}/message",
                  params={"token": os.environ["NOTIFLY_TOKEN"]},
                  json={"title": t, "message": m, "priority": p}, timeout=5)

В пуш положите топ-3 эндпоинта по cost — обычно регрессия в одном из них.

Связанные рецепты

Расходы на LLM API — общий бюджет.
Падение hit-rate prompt-cache — соседний симптом.