Logo

Обращение к хранилищу Iceberg напрямую с помощью Python

Tengri Data, 30 октября 2025 г.

 

В ролике демонстрируется практический сценарий обработки больших объёмов данных. Вначале создаётся тестовая SQL-таблица с одним столбцом, содержащим 1 миллион чисел. На её основе формируется новая таблица, которая:

  • наследует все столбцы исходной таблицы;
  • дополняется новым вычисляемым столбцом;
  • заполняется результатами Python-функции, получающей значения из исходных данных.

Вся обработка выполняется напрямую в Iceberg через Python, без промежуточного экспорта данных. В видео подробно показаны ключевые этапы:

  • загрузка исходной таблицы из Iceberg;
  • создание целевой таблицы с копированием схемы;
  • добавление новой колонки с обязательным указанием типа данных;
  • разбиение данных на батчи для потоковой обработки без загрузки всего объёма в память;
  • итеративная обработка батчей с преобразованием в DataFrame, вычислением новых значений и обратной записью в таблицу Iceberg;
  • пошаговый контроль выполнения цикла и размеров обрабатываемых данных.

Корректность записи проверяется двумя способами: через ScanCount и SQL-запрос в Tengri, после чего результирующая таблица выводится напрямую из хранилища Iceberg.

Видео наглядно демонстрирует, как Tengri + Python + Iceberg позволяют строить масштабируемые пайплайны обработки данных, эффективно работать с большими таблицами, реализовывать вычисления на Python и управлять структурой хранилища без потери производительности и контроля над данными.



К материалам
Обращение к хранилищу Iceberg напрямую с помощью Python : Аналитическая платформа Tengri Data