Databricksの開発現場では、Notebook単位の実験的なコードが多くなりがちです。 その中で欠かせないのがpytest。これはPythonのテストフレームワークで、複雑なデータ変換ロジックを小さく検証し、誤差や副作用を早期に検出するための強力なツールです。
Databricksでは、Spark DataFrame上でPythonのPandas関数を並列実行できる Pandas UDF(User Defined Function) が強力なツールとして利用されます。 通常のUDFが1行ずつ処理するのに対し、Pandas UDFは 列(Series)単位で高速処理 する点が特徴です。Sparkの分散処理性能を保ち ...
前回のブログ では、 Databricks CLI eXtensions と GitLab を使用して CI パイプラインを構築する方法を説明しました。 この記事では、最新の推奨される Databricks デプロイメント フレームワークで ある Databricks Asset Bundles を使用して同じ目的を達成する方法を説明します。