Автоматизация загрузки данных из множественных файлов

Tengri Data, 29 октября 2025 г.

В ролике показан полный практический сценарий работы с распределённым хранилищем данных — от получения списка файлов до аналитической обработки загруженных массивов. Автор демонстрирует, как с помощью Python и SQL можно:

подключиться к S3 с использованием библиотеки Boto3;
автоматически получить список всех Parquet-файлов в указанном бакете;
выполнять SQL-запросы напрямую к отдельным файлам Parquet;
инициализировать целевую таблицу в Tengri без загрузки данных (через SELECT * ... LIMIT 0);
создать таблицу с корректной схемой и типами данных;
организовать циклическую загрузку данных из всех файлов Parquet в одну таблицу;
контролировать процесс загрузки через поэтапный подсчёт строк.

В результате формируется единая таблица объёмом 50 миллионов строк, после чего демонстрируется аналитическая работа с большими данными:

выполнение агрегатных SQL-запросов на больших объёмах данных;
анализ распределения значений в булевых столбцах;
работа со структурированными JSON-полями с использованием JSON_EXTRACT;
построение аналитических таблиц распределений;
визуализация данных с помощью Python Matplotlib.

Видео наглядно показывает, как Tengri позволяет автоматизировать ingestion-процессы, объединять данные из множества файловых источников, работать с десятками миллионов строк и использовать единый стек SQL + Python для полноценной аналитики и построения data-pipeline-сценариев в промышленной среде.

К материалам

​​Автоматизация загрузки данных из множественных файлов

Автоматизация загрузки данных из множественных файлов