geometric-intelligence · theosaulus · Nov 17, 2025 · Nov 18, 2025 · Nov 18, 2025 · Nov 21, 2025
diff --git a/configs/dataset/graph/OC20_IS2RE.yaml b/configs/dataset/graph/OC20_IS2RE.yaml
@@ -0,0 +1,35 @@
+# OC20 IS2RE task
+# Train/val/test splits are precomputed in the LMDB archive
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_is2re_dataset_loader.IS2REDatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_IS2RE
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    task: is2re
+    download: true
+    legacy_format: false
+    dtype: float32
+    max_samples: 10  # Set to integer (e.g., 1000) to limit dataset size for fast experiments, or null for full dataset
+
+parameters:
+  num_features: 6  # Will be determined by the actual data
+  num_classes: 1
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # splits are precomputed in the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC20_S2EF_200K.yaml b/configs/dataset/graph/OC20_S2EF_200K.yaml
@@ -0,0 +1,42 @@
+# OC20 S2EF Dataset Configuration
+# Structure to Energy and Forces prediction for catalyst discovery
+# Dataset: 200K training samples with multiple validation splits
+# Validation: all 4 validation splits aggregated (val_id, val_ood_ads, val_ood_cat, val_ood_both)
+# Test: official test split
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_dataset_loader.OC20DatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_S2EF_200K
+    task: s2ef
+    train_split: "200K"
+    val_splits: null  # null means use all 4 validation splits (val_id, val_ood_ads, val_ood_cat, val_ood_both)
+    include_test: false  # S2EF test data is LMDB format (incompatible with .extxyz/ASE DB train/val)
+    download: true
+    dtype: float32
+    legacy_format: false
+    max_samples: 10  # Set to integer (e.g., 1000) to limit dataset size for fast experiments, or null for full dataset
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+parameters:
+  num_features: 1        # Number of node features (atomic numbers)
+  num_classes: 1         # Regression task (energy prediction)
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph      # Graph-level prediction
+
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # Splits are provided by the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC20_S2EF_200K_mock.yaml b/configs/dataset/graph/OC20_S2EF_200K_mock.yaml
@@ -0,0 +1,42 @@
+# OC20 S2EF Mock Dataset Configuration
+# Mock configuration for testing purposes using the 200K training samples (350MB)
+# This configuration is designed to be used for CI/CD testing without requiring large dataset downloads
+# It downloads only the 200K training split and uses it for train/val/test
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_dataset_loader.OC20DatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_S2EF_200K_mock
+    task: s2ef
+    train_split: "200K"
+    val_splits: []  # Empty list to avoid downloading validation splits
+    include_test: false  # Don't download test data to keep size minimal
+    download: true
+    dtype: float32
+    legacy_format: false
+    max_samples: 10  # Limit to 10 samples for fast testing
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+parameters:
+  num_features: 1        # Number of node features (atomic numbers)
+  num_classes: 1         # Regression task (energy prediction)
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph      # Graph-level prediction
+
+
+split_params:
+  learning_setting: inductive
+  split_type: random  # Use random splitting since we only download train split
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  train_prop: 0.6  # 60% train, 20% validation, 20% test
+
+dataloader_params:
+  batch_size: 8  # Smaller batch size for testing
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC20_S2EF_20M.yaml b/configs/dataset/graph/OC20_S2EF_20M.yaml
@@ -0,0 +1,38 @@
+# OC20 S2EF dataset with 20M training samples
+# Validation: all 4 validation splits aggregated (val_id, val_ood_ads, val_ood_cat, val_ood_both)
+# Test: official test split
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_dataset_loader.OC20DatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_S2EF_20M
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    task: s2ef
+    train_split: "20M"
+    val_splits: null  # null means use all 4 validation splits
+    test_split: "test"
+    download: true
+    legacy_format: false
+    dtype: float32
+
+parameters:
+  num_features: 6  # Will be determined by the actual data
+  num_classes: 1
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # splits are provided by the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC20_S2EF_2M.yaml b/configs/dataset/graph/OC20_S2EF_2M.yaml
@@ -0,0 +1,38 @@
+# OC20 S2EF dataset with 2M training samples
+# Validation: all 4 validation splits aggregated (val_id, val_ood_ads, val_ood_cat, val_ood_both)
+# Test: official test split
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_dataset_loader.OC20DatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_S2EF_2M
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    task: s2ef
+    train_split: "2M"
+    val_splits: null  # null means use all 4 validation splits
+    test_split: "test"
+    download: true
+    legacy_format: false
+    dtype: float32
+
+parameters:
+  num_features: 6  # Will be determined by the actual data
+  num_classes: 1
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # splits are provided by the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC20_S2EF_all.yaml b/configs/dataset/graph/OC20_S2EF_all.yaml
@@ -0,0 +1,38 @@
+# OC20 S2EF dataset with all training samples (~134M)
+# Validation: all 4 validation splits aggregated (val_id, val_ood_ads, val_ood_cat, val_ood_both)
+# Test: official test split
+
+loader:
+  _target_: topobench.data.loaders.graph.oc20_dataset_loader.OC20DatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC20_S2EF_all
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    task: s2ef
+    train_split: "all"
+    val_splits: null  # null means use all 4 validation splits
+    test_split: "test"
+    download: true
+    legacy_format: false
+    dtype: float32
+
+parameters:
+  num_features: 6  # Will be determined by the actual data
+  num_classes: 1
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # splits are provided by the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/configs/dataset/graph/OC22_IS2RE.yaml b/configs/dataset/graph/OC22_IS2RE.yaml
@@ -0,0 +1,35 @@
+# OC22 IS2RE task
+# Train/val/test splits are precomputed in the LMDB archive
+
+loader:
+  _target_: topobench.data.loaders.graph.oc22_is2re_dataset_loader.OC22IS2REDatasetLoader
+  parameters:
+    data_domain: graph
+    data_type: oc20
+    data_name: OC22_IS2RE
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+    task: oc22_is2re
+    download: true
+    legacy_format: false
+    dtype: float32
+    max_samples: 10  # Set to integer (e.g., 1000) to limit dataset size for fast experiments, or null for full dataset
+
+parameters:
+  num_features: 6  # Will be determined by the actual data
+  num_classes: 1
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+
+split_params:
+  learning_setting: inductive
+  split_type: fixed  # splits are precomputed in the dataset
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+
+dataloader_params:
+  batch_size: 32
+  num_workers: 0
+  pin_memory: true
+  persistent_workers: false
diff --git a/pyproject.toml b/pyproject.toml
@@ -54,6 +54,7 @@ dependencies=[
     "topomodelx @ git+https://github.com/pyt-team/TopoModelX.git",
     "toponetx @ git+https://github.com/pyt-team/TopoNetX.git",
     "lightning==2.4.0",
+    "ase",  # Required for OC20/OC22 S2EF dataset tests
 ]
 
 [project.optional-dependencies]

diff --git a/test/conftest.py b/test/conftest.py
@@ -1,4 +1,6 @@
 """Configuration file for pytest."""
+import os
+from pathlib import Path
 import networkx as nx
 import pytest
 import torch
@@ -11,6 +13,13 @@
 )
 
 
+# Set PROJECT_ROOT environment variable if not already set
+if "PROJECT_ROOT" not in os.environ:
+    # Get the project root (parent of test directory)
+    project_root = Path(__file__).parent.parent.absolute()
+    os.environ["PROJECT_ROOT"] = str(project_root)
+
+
 @pytest.fixture
 def mocker_fixture(mocker):
     """Return pytest mocker, used when one want to use mocker in setup_method.

diff --git a/test/data/load/test_datasetloaders.py b/test/data/load/test_datasetloaders.py
@@ -41,7 +41,10 @@ def _gather_config_files(self, base_dir: Path) -> List[str]:
                             # Below the datasets that have some default transforms with we manually overriten with no_transform,
                             # due to lack of default transform for domain2domain
                             "REDDIT-BINARY.yaml", "IMDB-MULTI.yaml", "IMDB-BINARY.yaml", #"ZINC.yaml"
-                            "ogbg-molpcba.yaml", "manual_dataset.yaml" # "ogbg-molhiv.yaml"
+                            "ogbg-molpcba.yaml", "manual_dataset.yaml", # "ogbg-molhiv.yaml"
+                            # OC20/OC22 datasets that require large downloads (excluded from tests)
+                            "OC20_S2EF_200K.yaml", "OC20_S2EF_2M.yaml", "OC20_S2EF_20M.yaml", 
+                            "OC20_S2EF_all.yaml", "OC20_IS2RE.yaml", "OC22_IS2RE.yaml"
                             }
 
         # Below the datasets that takes quite some time to load and process