Автоматизация загрузки данных из множественных файлов
Tengri Data, 29 октября 2025 г.
В ролике показан полный практический сценарий работы с распределённым хранилищем данных — от получения списка файлов до аналитической обработки загруженных массивов. Автор демонстрирует, как с помощью Python и SQL можно:
- подключиться к S3 с использованием библиотеки Boto3;
- автоматически получить список всех Parquet-файлов в указанном бакете;
- выполнять SQL-запросы напрямую к отдельным файлам Parquet;
- инициализировать целевую таблицу в Tengri без загрузки данных (через SELECT * ... LIMIT 0);
- создать таблицу с корректной схемой и типами данных;
- организовать циклическую загрузку данных из всех файлов Parquet в одну таблицу;
- контролировать процесс загрузки через поэтапный подсчёт строк.
В результате формируется единая таблица объёмом 50 миллионов строк, после чего демонстрируется аналитическая работа с большими данными:
- выполнение агрегатных SQL-запросов на больших объёмах данных;
- анализ распределения значений в булевых столбцах;
- работа со структурированными JSON-полями с использованием JSON_EXTRACT;
- построение аналитических таблиц распределений;
- визуализация данных с помощью Python Matplotlib.
Видео наглядно показывает, как Tengri позволяет автоматизировать ingestion-процессы, объединять данные из множества файловых источников, работать с десятками миллионов строк и использовать единый стек SQL + Python для полноценной аналитики и построения data-pipeline-сценариев в промышленной среде.