keras-team · acsweet · May 27, 2025 · Jun 24, 2025
diff --git a/examples/demo_custom_mlx_workflow.py b/examples/demo_custom_mlx_workflow.py
@@ -0,0 +1,121 @@
+import os
+
+# Set backend env to MLX
+os.environ["KERAS_BACKEND"] = "mlx"
+
+import mlx.core as mx
+import mlx.nn as nn
+
+from keras import Model
+from keras import initializers
+from keras import layers
+from keras import ops
+from keras import optimizers
+from keras import Variable
+
+
+class MyDense(layers.Layer):
+    def __init__(self, units, name=None):
+        super().__init__(name=name)
+        self.units = units
+
+    def build(self, input_shape):
+        input_dim = input_shape[-1]
+        w_shape = (input_dim, self.units)
+        w_value = initializers.GlorotUniform()(w_shape)
+        self.w = Variable(w_value, name="kernel")
+
+        b_shape = (self.units,)
+        b_value = initializers.Zeros()(b_shape)
+        self.b = Variable(b_value, name="bias")
+
+    def call(self, inputs):
+        return ops.matmul(inputs, self.w) + self.b
+
+
+class MyModel(Model):
+    def __init__(self, hidden_dim, output_dim):
+        super().__init__()
+        self.dense1 = MyDense(hidden_dim)
+        self.dense2 = MyDense(hidden_dim)
+        self.dense3 = MyDense(output_dim)
+
+    def call(self, x):
+        x = nn.relu(self.dense1(x))
+        x = nn.relu(self.dense2(x))
+        return self.dense3(x)
+
+
+def Dataset():
+    for _ in range(20):
+        yield (mx.random.normal((32, 128)), mx.random.normal((32, 4)))
+
+
+def loss_fn(y_true, y_pred):
+    return ops.sum((y_true - y_pred) ** 2)
+
+
+model = MyModel(hidden_dim=256, output_dim=4)
+
+optimizer = optimizers.SGD(learning_rate=0.001)
+dataset = Dataset()
+
+# Build model
+x = mx.random.normal((1, 128))
+model(x)
+# Build optimizer
+optimizer.build(model.trainable_variables)
+
+
+######### Custom MLX workflow ###############
+
+
+def compute_loss_and_updates(
+    trainable_variables, non_trainable_variables, x, y
+):
+    y_pred, non_trainable_variables = model.stateless_call(
+        trainable_variables, non_trainable_variables, x
+    )
+    loss = loss_fn(y, y_pred)
+    return loss, non_trainable_variables
+
+
+grad_fn = mx.value_and_grad(compute_loss_and_updates)
+
+
+@mx.compile
+def train_step(state, data):
+    trainable_variables, non_trainable_variables, optimizer_variables = state
+    x, y = data
+    (loss, non_trainable_variables), grads = grad_fn(
+        trainable_variables, non_trainable_variables, x, y
+    )
+    trainable_variables, optimizer_variables = optimizer.stateless_apply(
+        optimizer_variables, grads, trainable_variables
+    )
+    # Return updated state
+    return loss, (
+        trainable_variables,
+        non_trainable_variables,
+        optimizer_variables,
+    )
+
+
+# Pass lists of arrays as state for compiled train_step
+trainable_variables = [tv.value for tv in model.trainable_variables]
+non_trainable_variables = [ntv.value for ntv in model.non_trainable_variables]
+optimizer_variables = [ov.value for ov in optimizer.variables]
+state = trainable_variables, non_trainable_variables, optimizer_variables
+# Training loop
+for data in dataset:
+    loss, state = train_step(state, data)
+    print("Loss:", loss)
+
+# Post-processing model state update
+trainable_variables, non_trainable_variables, optimizer_variables = state
+for variable, value in zip(model.trainable_variables, trainable_variables):
+    variable.assign(value)
+for variable, value in zip(
+    model.non_trainable_variables, non_trainable_variables
+):
+    variable.assign(value)
diff --git a/keras/src/layers/preprocessing/stft_spectrogram_test.py b/keras/src/layers/preprocessing/stft_spectrogram_test.py
@@ -96,8 +96,18 @@ def test_spectrogram_channels_broadcasting(self):
             for i in range(audio.shape[-1])
         ]
 
-        self.assertAllClose(y_last, np.concatenate(y_singles, axis=-1))
-        self.assertAllClose(y_expanded, np.stack(y_singles, axis=-1))
+        if backend.backend() == "mlx":
+            atol = 1e-5
+            rtol = 1e-5
+        else:
+            atol = 1e-6
+            rtol = 1e-6
+        self.assertAllClose(
+            y_last, np.concatenate(y_singles, axis=-1), atol=atol, rtol=rtol
+        )
+        self.assertAllClose(
+            y_expanded, np.stack(y_singles, axis=-1), atol=atol, rtol=rtol
+        )
 
     @pytest.mark.skipif(
         backend.backend() == "tensorflow",
@@ -153,11 +163,23 @@ def test_spectrogram_channels_first(self):
         )
         y_last = layer_last.predict(audio, verbose=0)
         y_first = layer_first.predict(np.transpose(audio, [0, 2, 1]), verbose=0)
-        self.assertAllClose(np.transpose(y_first, [0, 2, 1]), y_last)
-        self.assertAllClose(y_expanded, np.stack(y_singles, axis=1))
+        if backend.backend() == "mlx":
+            atol = 1e-5
+            rtol = 1e-5
+        else:
+            atol = 1e-6
+            rtol = 1e-6
+        self.assertAllClose(
+            np.transpose(y_first, [0, 2, 1]), y_last, atol=atol, rtol=rtol
+        )
+        self.assertAllClose(
+            y_expanded, np.stack(y_singles, axis=1), atol=atol, rtol=rtol
+        )
         self.assertAllClose(
             y_first,
             np.transpose(np.concatenate(y_singles, axis=-1), [0, 2, 1]),
+            atol=atol,
+            rtol=rtol,
         )
         self.run_layer_test(
             layers.STFTSpectrogram,

diff --git a/keras/src/ops/nn_test.py b/keras/src/ops/nn_test.py
@@ -2504,6 +2504,10 @@ class NNOpsDtypeTest(testing.TestCase):
 
     FLOAT_DTYPES = dtypes.FLOAT_TYPES
 
+    if backend.backend() == "mlx":
+        # activations in mlx have an issue with float64
+        FLOAT_DTYPES = tuple([ft for ft in FLOAT_DTYPES if ft != "float64"])
+
     def setUp(self):
         from jax.experimental import enable_x64
 

diff --git a/keras/src/trainers/trainer_test.py b/keras/src/trainers/trainer_test.py
@@ -625,11 +625,13 @@ def test_fit_flow(self, run_eagerly, jit_compile, use_steps_per_epoch):
     def test_fit_with_data_adapter(
         self, dataset_type, dataset_kwargs={}, fit_kwargs={}
     ):
-        if (
-            dataset_kwargs.get("use_multiprocessing", False)
-            and backend.backend() == "jax"
-        ):
-            pytest.skip("Multiprocessing not supported with JAX backend")
+        if dataset_kwargs.get(
+            "use_multiprocessing", False
+        ) and backend.backend() in ["jax", "mlx"]:
+            # note: multiprocessing works for mlx on Apple silicon
+            pytest.skip(
+                "Multiprocessing not supported with JAX and MLX backends"
+            )
 
         model = ExampleModel(units=3)
         optimizer = optimizers.Adagrad()