Обращение к хранилищу Iceberg напрямую с помощью Python

Tengri Data, 30 октября 2025 г.

В ролике демонстрируется практический сценарий обработки больших объёмов данных. Вначале создаётся тестовая SQL-таблица с одним столбцом, содержащим 1 миллион чисел. На её основе формируется новая таблица, которая:

наследует все столбцы исходной таблицы;
дополняется новым вычисляемым столбцом;
заполняется результатами Python-функции, получающей значения из исходных данных.

Вся обработка выполняется напрямую в Iceberg через Python, без промежуточного экспорта данных. В видео подробно показаны ключевые этапы:

загрузка исходной таблицы из Iceberg;
создание целевой таблицы с копированием схемы;
добавление новой колонки с обязательным указанием типа данных;
разбиение данных на батчи для потоковой обработки без загрузки всего объёма в память;
итеративная обработка батчей с преобразованием в DataFrame, вычислением новых значений и обратной записью в таблицу Iceberg;
пошаговый контроль выполнения цикла и размеров обрабатываемых данных.

Корректность записи проверяется двумя способами: через ScanCount и SQL-запрос в Tengri, после чего результирующая таблица выводится напрямую из хранилища Iceberg.

Видео наглядно демонстрирует, как Tengri + Python + Iceberg позволяют строить масштабируемые пайплайны обработки данных, эффективно работать с большими таблицами, реализовывать вычисления на Python и управлять структурой хранилища без потери производительности и контроля над данными.

К материалам