rdm_to_df for pairs

Jasper van den Bosch · Jasper van den Bosch · commit 12da07ee530e · 2023-02-25T19:00:54.000Z
diff --git a/src/rsatoolbox/io/pandas.py b/src/rsatoolbox/io/pandas.py
@@ -4,6 +4,7 @@
 from typing import TYPE_CHECKING
 from pandas import DataFrame
 import numpy
+from numpy import asarray
 if TYPE_CHECKING:
     from rsatoolbox.rdm.rdms import RDMs
 
@@ -13,8 +14,8 @@ def rdms_to_df(rdms: RDMs) -> DataFrame:
 
     A column for:
     - dissimilarity
-    - each pattern descriptor
     - each rdm descriptor
+    - two for each pattern descriptor, suffixed by _1 and _2 respectively
 
     Multiple RDMs are stacked row-wise.
     See also the `RDMs.to_df()` method which calls this function
@@ -26,16 +27,16 @@ def rdms_to_df(rdms: RDMs) -> DataFrame:
         DataFrame: long-form pandas DataFrame with
             dissimilarities and descriptors.
     """
-    n_rdms, n_conds = rdms.dissimilarities.shape
+    n_rdms, n_pairs = rdms.dissimilarities.shape
     cols = dict(dissimilarity=rdms.dissimilarities.ravel())
     for dname, dvals in rdms.rdm_descriptors.items():
-        # rename the default index descriptor as that has special meaning
-        if dname == 'index':
-            dname = 'rdm_index'
-        cols[dname] = numpy.repeat(dvals, n_conds)
+        # rename the default index desc as that has special meaning in df
+        cname = 'rdm_index' if dname == 'index' else dname
+        cols[cname] = numpy.repeat(dvals, n_pairs)
     for dname, dvals in rdms.pattern_descriptors.items():
-        # rename the default index descriptor as that has special meaning
-        if dname == 'index':
-            dname = 'pattern_index'
-        cols[dname] = numpy.tile(dvals, n_rdms)
+        ix = numpy.triu_indices(len(dvals), 1)
+        # rename the default index desc as that has special meaning in df
+        cname = 'pattern_index' if dname == 'index' else dname
+        for p in (0, 1):
+            cols[f'{cname}_{p+1}'] = numpy.tile(asarray(dvals)[ix[p]], n_rdms)
     return DataFrame(cols)
diff --git a/tests/test_rdms_pandas.py b/tests/test_rdms_pandas.py
@@ -1,29 +1,40 @@
+from __future__ import annotations
 from unittest import TestCase
+from typing import TYPE_CHECKING, Union, List
 from numpy.testing import assert_array_equal
 import numpy
-import pandas
+from pandas import Series, DataFrame
+if TYPE_CHECKING:
+    from numpy.typing import NDArray
 
 
 class RdmsToPandasTests(TestCase):
 
+    def assertValuesEqual(self,
+                          actual: Series,
+                          expected: Union[NDArray, List]):
+        assert_array_equal(numpy.asarray(actual.values), expected)
+
     def test_to_df(self):
         """Convert an RDMs object to a pandas DataFrame
 
         Default is long form; multiple rdms are stacked row-wise.
         """
         from rsatoolbox.rdm.rdms import RDMs
-        dissimilarities = numpy.random.rand(2, 3)
-        conds = [c for c in 'abc']
+        dissimilarities = numpy.random.rand(2, 6)
         rdms = RDMs(
             dissimilarities,
-            rdm_descriptors=dict(xy=['x', 'y']),
-            pattern_descriptors=dict(abc=numpy.asarray(conds))
+            rdm_descriptors=dict(xy=[c for c in 'xy']),
+            pattern_descriptors=dict(abcd=numpy.asarray([c for c in 'abcd']))
         )
         df = rdms.to_df()
-        self.assertIsInstance(df, pandas.DataFrame)
-        self.assertEqual(len(df.columns), 5)
-        assert_array_equal(df.dissimilarity.values, dissimilarities.ravel())
-        assert_array_equal(df['rdm_index'].values, ([0]*3) + ([1]*3))
-        assert_array_equal(df['xy'].values, (['x']*3) + (['y']*3))
-        assert_array_equal(df['pattern_index'].values, list(range(3))*2)
-        assert_array_equal(df['abc'].values, conds*2)
+        self.assertIsInstance(df, DataFrame)
+        self.assertEqual(len(df.columns), 7)
+        self.assertValuesEqual(df.dissimilarity, dissimilarities.ravel())
+        self.assertValuesEqual(df['rdm_index'], ([0]*6) + ([1]*6))
+        self.assertValuesEqual(df['xy'], (['x']*6) + (['y']*6))
+        self.assertValuesEqual(df['pattern_index_1'],
+                               ([0]*3 + [1]*2 + [2]*1)*2)
+        self.assertValuesEqual(df['pattern_index_2'], [1, 2, 3, 2, 3, 3]*2)
+        self.assertValuesEqual(df['abcd_1'], [c for c in 'aaabbc']*2)
+        self.assertValuesEqual(df['abcd_2'], [c for c in 'bcdcdd']*2)