Logo

​​Автоматизация загрузки данных из множественных файлов

Tengri Data, 29 октября 2025 г.

 

В ролике показан полный практический сценарий работы с распределённым хранилищем данных — от получения списка файлов до аналитической обработки загруженных массивов. Автор демонстрирует, как с помощью Python и SQL можно:

  • подключиться к S3 с использованием библиотеки Boto3;
  • автоматически получить список всех Parquet-файлов в указанном бакете;
  • выполнять SQL-запросы напрямую к отдельным файлам Parquet;
  • инициализировать целевую таблицу в Tengri без загрузки данных (через SELECT * ... LIMIT 0);
  • создать таблицу с корректной схемой и типами данных;
  • организовать циклическую загрузку данных из всех файлов Parquet в одну таблицу;
  • контролировать процесс загрузки через поэтапный подсчёт строк.

В результате формируется единая таблица объёмом 50 миллионов строк, после чего демонстрируется аналитическая работа с большими данными:

  • выполнение агрегатных SQL-запросов на больших объёмах данных;
  • анализ распределения значений в булевых столбцах;
  • работа со структурированными JSON-полями с использованием JSON_EXTRACT;
  • построение аналитических таблиц распределений;
  • визуализация данных с помощью Python Matplotlib.

Видео наглядно показывает, как Tengri позволяет автоматизировать ingestion-процессы, объединять данные из множества файловых источников, работать с десятками миллионов строк и использовать единый стек SQL + Python для полноценной аналитики и построения data-pipeline-сценариев в промышленной среде.



К материалам