Иллюстрация полного цикла работы аналитика в Tengri
Tengri Data, 27 ноября 2025 г.
Новое видео о платформе Tengri, в котором возможности системы показаны не «с высоты архитектуры», а на практическом уровне — через реальные сценарии и живые данные.
Спикер — Алексей Богданов, кандидат филологических наук, специалист по NLP с 15-летним опытом в области машинного перевода и обработки текстов. Присоединившись к команде Tengri, он стал одним из первых реальных пользователей платформы — при этом не будучи дата-инженером или профессиональным аналитиком. В видео он демонстрирует, как человек без глубокого бэкграунда в data engineering может быстро войти в аналитику при наличии удобного инструмента.
В первом кейсе используется личный архив спортивных данных из Strava — более 2 000 GPX/FIT-файлов за 10 лет велозаездов.
Что показано в видео:
- загрузка ZIP-архива через веб-интерфейс;
- парсинг GPX и FIT в Python прямо в ноутбуке;
- обогащение данных через внешние сервисы (например, определение страны по координатам);
- формирование таблиц треков и точек (11,4 млн строк);
- объединение с CSV-данными социальной активности;
- аналитика через SQL (страны, километраж, сезонность, распределение активности);
- визуализация в ноутбуке — от линейных графиков до stacked-метрик;
- построение карт и тепловых схем маршрутов с использованием Python-библиотек.
Ключевой момент — бесшовная работа в одном интерфейсе: Python для обработки, SQL для выборок, встроенные графики и картографические визуализации без переключения между инструментами.
Во второй части демонстрируется работа с масштабным текстовым корпусом из Hugging Face — датасетом FineWeb (сэмпл ~0,5%, около 100 млрд токенов).
Показано, что даже простые регулярные запросы к большим корпусам позволяют получать осмысленные макротренды — быстрее и точнее, чем через поисковые системы.
Видео фокусируется на трёх ключевых аспектах платформы Tengri:
- Низкий порог входа — аналитика доступна специалисту без профильного data-бэкграунда.
- Единая среда работы — Python, SQL, визуализация и хранение данных внутри одного ноутбука.
- Масштабируемость — от 11 млн геоточек до миллиардов текстовых строк с быстрым откликом на запросы.
Видео будет интересно аналитикам, NLP-специалистам, инженерам данных и тем, кто оценивает современные платформы как инструмент для работы с разнородными и большими данными