Feed data as DataFrame instead of as an array to some models

lopezco · lopezco · commit be26e899cfc4 · 2019-08-20T10:58:48.000+02:00
diff --git a/python/model/base.py b/python/model/base.py
@@ -111,6 +111,9 @@ def explain(self, features, samples=None):
         raise NotImplementedError()
 
     # Private
+    def _get_predictor_type(self):
+        return str(type(self._get_predictor()))
+
     def _hydrate(self, model, metadata):
         # Fill attributes
         self._model = model
@@ -329,7 +332,7 @@ def info(self):
         # Info from model
         result['model'] = {
             'type': str(type(self._model)),
-            'predictor_type': str(type(self._get_predictor())),
+            'predictor_type': self._get_predictor_type(),
             'is_explainable': self._is_explainable,
             'task': self.task_type(as_text=True),
             'family': self.family
diff --git a/python/model/sklearn.py b/python/model/sklearn.py
@@ -190,7 +190,12 @@ def explain(self, features, samples=None):
         # Explainer
         explainer = shap.TreeExplainer(self._get_predictor(), **params)
         colnames = self._feature_names()
-        shap_values = explainer.shap_values(preprocessed[colnames].values)
+        # This patch will ensure that the data will be fed as a pandas DataFrame
+        # instead of as a numpy array to some models. Ex: LightGBM
+        input_data = preprocessed[colnames]
+        predictor_type = self._get_predictor_type()
+        use_pandas = any(c in predictor_type for c in ('LGBMClassifier', 'LGBMRegressor'))
+        shap_values = explainer.shap_values(input_data if use_pandas else input_data.values)
 
         # Create an index to handle multiple samples input
         index = preprocessed.index