### Scaling with Dask
import xarray as xr
import dask
import numpy as np
import matplotlib.pyplot as plt
import dask.array

from dask.distributed import Client
import multiprocessing

from dask.distributed import Client

# Get the number of cores
n_cores = 2
# Specify the number of threads per worker
threads_per_worker = 2  # adjust this based on your workload

client = Client(n_workers=n_cores, threads_per_worker=threads_per_worker)
client

shape = (1000, 4000)
ones_np = np.ones(shape)
print("Size:", ones_np.nbytes / 1e6, "MB")

ones_da = dask.array.ones(shape)
ones_da

# Note: 1 MiB = 1,048,576 bytes

chunks_size = (1000, 1000)
ones_da = dask.array.ones(shape, chunks=chunks_size)
ones_da

# Uncomment if you get error related to graphviz when plotting
#!pip uninstall graphviz
# conda install -c conda-forge graphviz
# conda install -c conda-forge python-graphviz

# Visualize the dask graph
dask.visualize(ones_da)

# Dask is lazy, it graphs the tasks but not doing it, until we specifically ask for it through compute
ones_mean = ones_da.mean()
ones_mean

dask.visualize(ones_da.mean())

# To calculate
ones_mean.compute()

import time


def inc(x):
    # Takes two seconds to compute
    time.sleep(2)
    return x + 1


def dec(y):
    # Takes one second to compute
    time.sleep(1)
    return y - 1


def add(x, y):
    # Takes one seconds to compute
    time.sleep(1)
    return x + y

%%time
x = inc(1)
y = dec(2)
z = add(x, y)

inc = dask.delayed(inc)
dec = dask.delayed(dec)
add = dask.delayed(add)

%%time
x = inc(1)
y = dec(2)
z = add(x, y)

# Visualize the dask graph for calculation of z
z.visualize(rankdir="LR")

%%time
z.compute()

ds = xr.open_dataset("./data/air.mon.mean.nc")
da = xr.open_dataarray("./data/air.mon.mean.nc")
da

# Open the air temprature Dataset with Dask enabled
da = xr.open_dataarray(
    "./data/air.mon.mean.nc",
    chunks={
        "time": 100,
        "lat": "auto",
        "lon": "auto",
    },
)
da

da.data

data = da.to_numpy()
print(type(data))
print(data)

mean = da.mean()
std = da.std()
mean_std = mean + std
mean_std

dask.visualize(mean_std, rankdir="LR")

mean_std_calculated = mean_std.compute()

mean_std_calculated

mean_std.load()

da_annual = da.resample(time="Y").mean()
da_annual = da_annual.chunk(dict(time=-1))
da_annual = da_annual.chunk({"lat": 100, "lon": 100, "time": -1})
da_annual

# Define a function that calculates the linear trend using numpy polyfit
def linear_trend(y):
    # y is the variable of interest
    # Check if there is any NaN in y
    if np.any(np.isnan(y)):
        # Return NaN as slope
        return np.nan
    else:
        # Create an array of indices as x
        x = np.arange(len(y))
        # Return only the slope of the linear fit
        return np.polyfit(x, y, 1)[0]


trend = xr.apply_ufunc(
    linear_trend,
    da_annual.variable,
    input_core_dims=[["time"]],
    output_core_dims=[[]],
    vectorize=True,
    dask="parallelized",
    output_dtypes=[float],
)
trend_dataarray = xr.DataArray(
    trend, dims=["lat", "lon"], coords={"lat": ds.lat, "lon": ds.lon}
)
trend_dataarray.plot()

from dask import optimize

(optimized,) = optimize(trend.data)
optimized.visualize()

bigshape = (200000, 40000)
chunk_shape = (1000, 1000)  # define your chunk shape
big_ones = dask.array.ones(bigshape, chunks=chunk_shape)
print("Size is:", big_ones.nbytes / 1e9, "GB! To big to fit in memory")
big_ones

big_ones_xr = xr.DataArray(
    big_ones,
    dims=["lat", "lon"],
    coords={"lat": np.arange(bigshape[0]), "lon": np.arange(bigshape[1])},
    name="big_ones",
    attrs={"units": "m"},
)
big_ones_xr

big_mean = big_ones.mean() + big_ones.std()

from dask.diagnostics import ProgressBar

ProgressBar().register()
with ProgressBar():
    result = big_mean.compute()
result

client.close()

!pip install pystac-client planetary-computer odc.stac

import pystac_client
import planetary_computer
import odc.stac
import matplotlib.pyplot as plt
from pystac.extensions.eo import EOExtension as eo

catalog = pystac_client.Client.open(
    "https://planetarycomputer.microsoft.com/api/stac/v1",
    modifier=planetary_computer.sign_inplace,
)

bbox_of_interest = [-122.001, 47, -122, 47.001]
time_of_interest = "2021-01-01/2021-12-31"
# area_of_interest = {"type": "Point", "coordinates": [-122.2751, 47.5469]}

search = catalog.search(
    collections=["landsat-c2-l2"],
    # intersects=area_of_interest,
    bbox=bbox_of_interest,
    datetime=time_of_interest,
    query={"eo:cloud_cover": {"lt": 10}},
)

items = search.item_collection()
print(f"Returned {len(items)} Items")

items = list(items)
items[0]

import xarray as xr

bands_of_interest = ["nir08"]
data_list = []

for item in items:
    data = odc.stac.stac_load(
        [item], bands=bands_of_interest, bbox=bbox_of_interest
    ).isel(time=0)
    data_list.append(data)

combined_data = xr.concat(data_list, dim="item")
combined_data

combined_data.nir08.mean(["x", "y"]).plot()

combined_data.nir08.mean("item").plot()

data["nir08"].plot()

RCC - UChicago, 2025¶

Geospatial Python Part 2: Scaling Geospatial Workflows with Dask¶

Instructors:¶

Commands¶

Topics¶

Geospatial Data Formats for Climate and Satellite Data¶

Key Formats¶

NetCDF (Network Common Data Form; Our focus today)¶

HDF5 (Hierarchical Data Format version 5)¶

Zarr¶

STAC (SpatioTemporal Asset Catalog)¶

Large Data and Speed: The Next Challenge¶

Introducing Dask¶

Dask graph¶

Parallelize the calculation¶

Dask-Xarray for Large-Scale Gridded Geospatial Data Analysis¶

Lazy computation¶

Calculate the trend but with Dask¶

Real out-of-memory-example:¶

Practice:¶

Bonus section: Microsoft planetary computer uses Xarray and Dask for Gepspatial data analysis¶

Downloading Data from Microsoft Planetary Computer¶