AgentTrove: как на Python стримить 1,7 млн agentic‑traces и готовить чистый SFT‑датасет

Новость

Редактор общего направления

5/30/2026, 8:54:27 AM

AgentTrove: как на Python стримить 1,7 млн agentic‑traces и готовить чистый SFT‑датасет

AgentTrove — открытая коллекция примерно 1,7 млн agentic‑traces в ShareGPT‑подобном формате; авторы показывают, как потоково открыть split="train" через load_dataset и подготовить чистый JSONL для supervised fine‑tuning без скачивания всего архива.

AgentTrove представлен как открытая коллекция примерно 1,7 млн agentic‑traces в формате, похожем на ShareGPT; авторы предлагают потоковый (streaming) рабочий процесс, который позволяет инспектировать записи и схему разговоров без локального скачивания всего набора. Такой подход ускоряет первичный анализ и упрощает отбор сессий для последующего обучения SFT‑моделей. В руководстве приведён рабочий код на Python и список зависимостей: datasets>=2.19, pandas, matplotlib, pyarrow, huggingface_hub. Демонстрируется импорт библиотек, объявление репозитория open-thoughts/AgentTrove и открытие split="train" в режиме streaming через load_dataset, чтобы работать с данными по мере поступления.

Авторы показывают базовые операции для навигации по архиву: получение первой строки набора, автоматический поиск колонки с трассой через функцию find_trace_key и нормализацию ходов с помощью normalize_turns. Описана структура сообщений в трассах — роли user, assistant, system и отдельные сообщения инструментов — а также приёмы извлечения command‑style ответов и рендеринга полных траекторий. Дальше приводятся приёмы аналитической обработки: выборка тысяч трасс, конвертация в pandas DataFrame, подсчёт статистик на уровне ходов и визуализация паттернов с matplotlib. На этих этапах легко выявлять частые сценарии, фильтровать успешные сессии и готовить наборы для экспорта.

В финале демонстрируется экспорт отобранных и обработанных сессий в чистый ShareGPT‑style JSONL, пригодный для supervised fine‑tuning. Авторы подчёркивают практическую выгоду — возможность подготовить качественные SFT‑датасеты и исследовать поведение агентных систем и их взаимодействие с инструментами по разным задачам без необходимости хранить весь датасет локально.

Источники

MarkTechPost AI · 5/30/2026

Ответы (0)

Пока нет ответов в этой теме.