For LLM builders & prompt engineers

Лаборатория для
LLM Builders

Прототипируешь Claude / GPT / Gemini API ежедневно? Tab-per-model split-pane, Claude Code в соседней вкладке, voice для system prompt experiments, prepaid ключи к 6+ провайдерам через единый интерфейс. Не платишь за простой облачного IDE пока ждёшь tokens — платишь только Anthropic / OpenAI напрямую.

Trial 7 дней Что внутри →

🧠 6+ LLM в split-pane ⚡ Claude Code рядом 🎤 Voice prompts 🔑 Bring your own keys 📊 Token usage tracking

Fellodesk для AI-инженера — desktop с Claude Code Opus 4.7 и виджетами в Dock — Desktop — Claude Code Opus 4.7 готов к работе, FileManager для curl / openai-cli скриптов, Dock с микрофоном для voice-prompt experiments, мульти-юзер табы для shared experiments.

Fellodesk Brain widget — Claude Opus 4.7 token usage, 5-hour limit и weekly budget — Brain widget — real-time token usage Claude Opus 4.7: 22 minutes session, 32% использовано, 5-hour limit 3%, weekly 50%. Видишь burn rate, не превышаешь лимит.

Почему AI-инженеру это окупается

Built-in Claude Code + Claude API без переключения. Tab 1 — Code Agent работает в твоём репо, Tab 2 — direct API для тестов system prompts.
Сравнивай 3+ LLM в split-pane. Open в одной сессии Claude Sonnet 4.6, GPT-4o, Gemini 2.5 Pro — запускаешь один промпт во все три параллельно, сравниваешь.
Прототип → prod через одно окно. Тестируешь промпт в curl-таб, валидируешь через pytest, push в GitHub — без выхода из браузера.
Voice как input для system prompt experiments. Диктуешь длинные prompts голосом <1 сек — Whisper понимает технический жаргон и mixed RU/EN.
Тратишь только на actual tokens. Не на простаивающий cloud IDE ($25/мес Replit) — наш $30/мес = инфра + tokens напрямую через твой Anthropic/OpenAI ключ.
Bring Your Own Keys. Anthropic, OpenAI, OpenRouter, Mistral, Gemini, Groq — храним в твоём изолированном container, прямые запросы в обход нашего сервера.
Token usage dashboard. Видишь сколько потратил на каждый эксперимент, какая модель экономнее, какой prompt дороже — выбираешь оптимум для prod.

Что внутри

Сделано для тех кто пишет prompts профессионально

AI-engineering — это не только train/fine-tune. 80% работы — это эксперименты с промптами, замеры качества и сравнение моделей. Мы оптимизировали каждый шаг.

🧠

Multi-LLM split-pane

Три модели в трёх tmux-panes, один input — три параллельных ответа. Сравниваешь latency, качество, token cost за один запрос.

Claude Opus / Sonnet / Haiku
GPT-4o, o1, o1-mini, o3
Gemini 2.5 Pro / Flash
Llama 3, Mistral, DeepSeek через OpenRouter

⚡

Claude Code agent

Тот же agent что Anthropic выпустил для CLI — но в браузере, с tmux-persistence и shared sessions. Работает прямо над твоими промпт-файлами.

Opus / Sonnet / Haiku — переключение per-tab
max_5x prepaid через Pro subscription Claude
Read/Edit/Bash tools работают над файлами
Multi-tab agent с разными ролями

🎤

Voice prompt input

Длинный system prompt быстрее продиктовать чем напечатать. Push-to-talk Whisper, <1 сек, RU/EN/mixed. Дико ускоряет итерации.

Whisper large-v3 для технического словаря
Авто-вставка в активный pane
History всех voice-промптов с replay
Swipe-lock для long-form (5+ мин)

📊

Token & cost tracking

Каждый запрос логируется: модель, input/output tokens, $-стоимость. Дайджест по дню / неделе — какой эксперимент сколько съел.

Per-experiment cost breakdown
Compare-mode: $1 эксперимент = N запросов
Budget alerts при достижении лимита
Export в CSV для финансового учёта

🧪

Prompt evals

Встроенный evaluator: загружаешь test cases (JSONL) → каждый prompt прогоняется против всех → видишь pass-rate и regression.

JSONL test cases input / expected
LLM-as-judge или regex / exact match
Diff между двумя версиями prompt
Регресс-алерты при изменении prompt

🔬

Embeddings playground

Qdrant локально + UI для семантического поиска. Загружаешь datasets, экспериментируешь с chunks size / embedding models.

OpenAI text-embedding-3 small/large
Cohere embed v3, Voyage AI
Локальные BGE / E5 через HF
Vector inspect & similarity scoring

Workflow

Реальный день AI-инженера

Не теория — типичный сценарий prompt-engineer'а работающего над production-агентом.

10:00 — Hypothesis

Клиент жалуется что bot путает intent. Открываешь логи в Tab 1:

📊 Анализируешь 200 fails из last_week.jsonl
🎤 «найди закономерность в этих fails» → Claude
💡 Hypothesis: «модель путает refund vs cancel»
📝 Записал в notes/exp_2026_05_11.md

11:30 — Split test

Открываешь split-pane 3 моделей с improved prompt:

📺 Pane 1: Claude Sonnet 4.6
📺 Pane 2: GPT-4o
📺 Pane 3: Gemini 2.5 Pro
🧪 Один script гоняет 50 test cases во все три

14:00 — Results

Через час видишь результаты:

✅ Claude: 46/50 pass · $0.42 · avg 2.1s
✅ GPT-4o: 44/50 pass · $0.55 · avg 1.8s
✅ Gemini: 41/50 pass · $0.18 · avg 1.4s
🏆 Выбор: Claude (точность важнее $)

17:00 — Deploy

Победивший prompt едет в prod:

🎤 «обнови prompt в bot.py, push в master»
✅ Claude Code: commit · tests pass · pushed
🔔 CI deploy on staging → green
📊 Token usage today: $4.12 (норма)

Pricing

Один эксперимент = окупаемость месяца

$30/мес — это меньше одного A/B-теста с GPT-4o. Экономишь часы на копи-пейсте между OpenAI Playground, Anthropic Console и localhost.

Trial

Для оценки

$0 / 7 дней

Полный функционал
1 проект, 4ч/день
Bring your own keys
Без приоритета поддержки

Начать trial

AI Track

Pro

Один AI-инженер

$30 / месяц

Безлимит проектов
Multi-LLM split-pane
Token tracking + budgets
Prompt evals + LLM-as-judge
Embeddings playground
Voice input + history
Bring your own keys (все 6+ провайдеров)

Team

До 3 AI-инженеров

$80 / месяц

Всё из Pro × 3 seats
Shared prompt library
Pair-prompting через shared tmux
Team eval dashboard
Approval workflow для prod prompts
Slack / Discord integration

Связаться

FAQ

Часто спрашивают

Не нашёл ответ? Напиши в Telegram @coscosang.

Чем это отличается от OpenAI Playground / Anthropic Console?

Playground и Console — single-model UI без split-pane, без сохранения экспериментов как git-commits, без интеграции с твоим кодом. Здесь — три модели рядом, prompt как файл в репо, Claude Code дописывает eval-скрипты сам.

Bring your own keys — где они хранятся?

В env-переменных твоего изолированного контейнера. Только у тебя. Прямые запросы в Anthropic / OpenAI идут с твоего контейнера к их серверам, минуя нас. Мы не видим tokens и не логируем prompts.

Multi-LLM split — это правда работает быстро?

Да — параллельные async-запросы. Если три провайдера живы — получаешь все три ответа за время самого медленного. На fail одного — два других не блочатся. Прогон 50 test cases через 3 модели — ~3 минуты на нормальных endpoints.

Prompt evals — как работают?

JSONL-файл с полями input и expected. Eval-runner прогоняет каждый input через current prompt, сравнивает output с expected (regex / exact match / LLM-as-judge). Выдаёт pass-rate, diff с prev version, regression алерт. Git-friendly.

Self-host? Можно поднять у себя?

Да, ядро под MIT. git clone && bash scripts/server/wt_installer.sh — поднимется через 5 минут на любой VPS. Multi-LLM модуль (split-pane + evals) — closed source, $200/год self-hosted license. Подписка на managed cloud дешевле если нужен один человек.

Embeddings playground — что внутри?

Qdrant локально (embedded) + UI: загружаешь dataset, выбираешь embedding model, chunking strategy → видишь similarity matrix, можешь поиграть с queries. Поддерживает OpenAI text-embedding-3, Cohere embed v3, Voyage AI, локальные BGE / E5 через HF transformers.

Лаборатория дляLLM Builders