Logo

Иллюстрация полного цикла работы аналитика в Tengri

Tengri Data, 27 ноября 2025 г.

 

Новое видео о платформе Tengri, в котором возможности системы показаны не «с высоты архитектуры», а на практическом уровне — через реальные сценарии и живые данные.

Спикер — Алексей Богданов, кандидат филологических наук, специалист по NLP с 15-летним опытом в области машинного перевода и обработки текстов. Присоединившись к команде Tengri, он стал одним из первых реальных пользователей платформы — при этом не будучи дата-инженером или профессиональным аналитиком. В видео он демонстрирует, как человек без глубокого бэкграунда в data engineering может быстро войти в аналитику при наличии удобного инструмента.

В первом кейсе используется личный архив спортивных данных из Strava — более 2 000 GPX/FIT-файлов за 10 лет велозаездов.

Что показано в видео:

  • загрузка ZIP-архива через веб-интерфейс;
  • парсинг GPX и FIT в Python прямо в ноутбуке;
  • обогащение данных через внешние сервисы (например, определение страны по координатам);
  • формирование таблиц треков и точек (11,4 млн строк);
  • объединение с CSV-данными социальной активности;
  • аналитика через SQL (страны, километраж, сезонность, распределение активности);
  • визуализация в ноутбуке — от линейных графиков до stacked-метрик;
  • построение карт и тепловых схем маршрутов с использованием Python-библиотек.

Ключевой момент — бесшовная работа в одном интерфейсе: Python для обработки, SQL для выборок, встроенные графики и картографические визуализации без переключения между инструментами.

Во второй части демонстрируется работа с масштабным текстовым корпусом из Hugging Face — датасетом FineWeb (сэмпл ~0,5%, около 100 млрд токенов).

Показано, что даже простые регулярные запросы к большим корпусам позволяют получать осмысленные макротренды — быстрее и точнее, чем через поисковые системы.

Видео фокусируется на трёх ключевых аспектах платформы Tengri:

  1. Низкий порог входа — аналитика доступна специалисту без профильного data-бэкграунда.
  2. Единая среда работы — Python, SQL, визуализация и хранение данных внутри одного ноутбука.
  3. Масштабируемость — от 11 млн геоточек до миллиардов текстовых строк с быстрым откликом на запросы.

Видео будет интересно аналитикам, NLP-специалистам, инженерам данных и тем, кто оценивает современные платформы как инструмент для работы с разнородными и большими данными



К материалам