Обращение к хранилищу Iceberg напрямую с помощью Python
Tengri Data, 30 октября 2025 г.
В ролике демонстрируется практический сценарий обработки больших объёмов данных. Вначале создаётся тестовая SQL-таблица с одним столбцом, содержащим 1 миллион чисел. На её основе формируется новая таблица, которая:
- наследует все столбцы исходной таблицы;
- дополняется новым вычисляемым столбцом;
- заполняется результатами Python-функции, получающей значения из исходных данных.
Вся обработка выполняется напрямую в Iceberg через Python, без промежуточного экспорта данных. В видео подробно показаны ключевые этапы:
- загрузка исходной таблицы из Iceberg;
- создание целевой таблицы с копированием схемы;
- добавление новой колонки с обязательным указанием типа данных;
- разбиение данных на батчи для потоковой обработки без загрузки всего объёма в память;
- итеративная обработка батчей с преобразованием в DataFrame, вычислением новых значений и обратной записью в таблицу Iceberg;
- пошаговый контроль выполнения цикла и размеров обрабатываемых данных.
Корректность записи проверяется двумя способами: через ScanCount и SQL-запрос в Tengri, после чего результирующая таблица выводится напрямую из хранилища Iceberg.
Видео наглядно демонстрирует, как Tengri + Python + Iceberg позволяют строить масштабируемые пайплайны обработки данных, эффективно работать с большими таблицами, реализовывать вычисления на Python и управлять структурой хранилища без потери производительности и контроля над данными.