Прототипируешь Claude / GPT / Gemini API ежедневно? Tab-per-model split-pane, Claude Code в соседней вкладке, voice для system prompt experiments, prepaid ключи к 6+ провайдерам через единый интерфейс. Не платишь за простой облачного IDE пока ждёшь tokens — платишь только Anthropic / OpenAI напрямую.


AI-engineering — это не только train/fine-tune. 80% работы — это эксперименты с промптами, замеры качества и сравнение моделей. Мы оптимизировали каждый шаг.
Три модели в трёх tmux-panes, один input — три параллельных ответа. Сравниваешь latency, качество, token cost за один запрос.
Тот же agent что Anthropic выпустил для CLI — но в браузере, с tmux-persistence и shared sessions. Работает прямо над твоими промпт-файлами.
Длинный system prompt быстрее продиктовать чем напечатать. Push-to-talk Whisper, <1 сек, RU/EN/mixed. Дико ускоряет итерации.
Каждый запрос логируется: модель, input/output tokens, $-стоимость. Дайджест по дню / неделе — какой эксперимент сколько съел.
Встроенный evaluator: загружаешь test cases (JSONL) → каждый prompt прогоняется против всех → видишь pass-rate и regression.
Qdrant локально + UI для семантического поиска. Загружаешь datasets, экспериментируешь с chunks size / embedding models.
Не теория — типичный сценарий prompt-engineer'а работающего над production-агентом.
Клиент жалуется что bot путает intent. Открываешь логи в Tab 1:
Открываешь split-pane 3 моделей с improved prompt:
Через час видишь результаты:
Победивший prompt едет в prod:
$30/мес — это меньше одного A/B-теста с GPT-4o. Экономишь часы на копи-пейсте между OpenAI Playground, Anthropic Console и localhost.
Для оценки
Один AI-инженер
До 3 AI-инженеров
Не нашёл ответ? Напиши в Telegram @coscosang.
Playground и Console — single-model UI без split-pane, без сохранения экспериментов как git-commits, без интеграции с твоим кодом. Здесь — три модели рядом, prompt как файл в репо, Claude Code дописывает eval-скрипты сам.
В env-переменных твоего изолированного контейнера. Только у тебя. Прямые запросы в Anthropic / OpenAI идут с твоего контейнера к их серверам, минуя нас. Мы не видим tokens и не логируем prompts.
Да — параллельные async-запросы. Если три провайдера живы — получаешь все три ответа за время самого медленного. На fail одного — два других не блочатся. Прогон 50 test cases через 3 модели — ~3 минуты на нормальных endpoints.
JSONL-файл с полями input и expected. Eval-runner
прогоняет каждый input через current prompt, сравнивает output с expected (regex /
exact match / LLM-as-judge). Выдаёт pass-rate, diff с prev version, regression
алерт. Git-friendly.
Да, ядро под MIT. git clone && bash scripts/server/wt_installer.sh —
поднимется через 5 минут на любой VPS. Multi-LLM модуль (split-pane + evals) —
closed source, $200/год self-hosted license. Подписка на managed cloud дешевле
если нужен один человек.
Qdrant локально (embedded) + UI: загружаешь dataset, выбираешь embedding model, chunking strategy → видишь similarity matrix, можешь поиграть с queries. Поддерживает OpenAI text-embedding-3, Cohere embed v3, Voyage AI, локальные BGE / E5 через HF transformers.