Move message words gather to SIMD code

cesarb · cesarb · commit d1c1a98a1976 · 2015-07-31T06:21:50.000-03:00
For each round, BLAKE2 loads a different set of words from the message,
controlled by the SIGMA array. This seems an obvious place to use a SIMD
gather instruction. To allow for further experimentation, move the
gather of the message words to the SIMD code.
diff --git a/src/blake2.rs b/src/blake2.rs
@@ -48,7 +48,7 @@ macro_rules! blake2_impl {
         use $crate::as_bytes::AsBytes;
         use $crate::bytes::{MutableByteVector, copy_memory};
         use $crate::constant_time_eq::constant_time_eq;
-        use $crate::simd::{Vector, $vec};
+        use $crate::simd::{Vector4, $vec};
 
         /// Container for a hash result.
         ///
@@ -245,16 +245,16 @@ macro_rules! blake2_impl {
 
             #[inline(always)]
             fn round(v: &mut [$vec; 4], m: &[$word; 16], s: &[usize; 16]) {
-                $state::quarter_round(v, $R1, $R2, $vec(
-                                      m[s[ 0]], m[s[ 2]], m[s[ 4]], m[s[ 6]]));
-                $state::quarter_round(v, $R3, $R4, $vec(
-                                      m[s[ 1]], m[s[ 3]], m[s[ 5]], m[s[ 7]]));
+                $state::quarter_round(v, $R1, $R2, $vec::gather(m,
+                                      s[ 0], s[ 2], s[ 4], s[ 6]));
+                $state::quarter_round(v, $R3, $R4, $vec::gather(m,
+                                      s[ 1], s[ 3], s[ 5], s[ 7]));
 
                 $state::shuffle(v);
-                $state::quarter_round(v, $R1, $R2, $vec(
-                                      m[s[ 8]], m[s[10]], m[s[12]], m[s[14]]));
-                $state::quarter_round(v, $R3, $R4, $vec(
-                                      m[s[ 9]], m[s[11]], m[s[13]], m[s[15]]));
+                $state::quarter_round(v, $R1, $R2, $vec::gather(m,
+                                      s[ 8], s[10], s[12], s[14]));
+                $state::quarter_round(v, $R3, $R4, $vec::gather(m,
+                                      s[ 9], s[11], s[13], s[15]));
                 $state::unshuffle(v);
             }
 
diff --git a/src/simd.rs b/src/simd.rs
@@ -63,7 +63,9 @@ macro_rules! impl_bitxor {
 impl_bitxor!(u32x4);
 impl_bitxor!(u64x4);
 
-pub trait Vector: Copy {
+pub trait Vector4<T>: Copy {
+    fn gather(src: &[T], i0: usize, i1: usize, i2: usize, i3: usize) -> Self;
+
     fn from_le(self) -> Self;
     fn to_le(self) -> Self;
 
@@ -82,8 +84,14 @@ pub trait Vector: Copy {
     #[inline(always)] fn shuffle_right_3(self) -> Self { self.shuffle_left_1() }
 }
 
-macro_rules! impl_vector_common {
+macro_rules! impl_vector4_common {
     ($vec:ident, $word:ident, $bits:expr) => {
+        #[inline(always)]
+        fn gather(src: &[$word], i0: usize, i1: usize,
+                                 i2: usize, i3: usize) -> Self {
+            $vec(src[i0], src[i1], src[i2], src[i3])
+        }
+
         #[cfg(target_endian = "little")]
         #[inline(always)]
         fn from_le(self) -> Self { self }
@@ -173,8 +181,8 @@ fn u32x4_rotate_right_16(vec: u32x4) -> u32x4 {
     }
 }
 
-impl Vector for u32x4 {
-    impl_vector_common!(u32x4, u32, 32);
+impl Vector4<u32> for u32x4 {
+    impl_vector4_common!(u32x4, u32, 32);
 
     #[cfg(feature = "simd_opt")]
     #[cfg(any(target_arch = "arm", target_arch = "aarch64",
@@ -244,8 +252,9 @@ fn u64x4_rotate_right_u8(vec: u64x4, n: u8) -> u64x4 {
     u64x4(tmp0.0, tmp0.1, tmp1.0, tmp1.1)
 }
 
-impl Vector for u64x4 {
-    impl_vector_common!(u64x4, u64, 64);
+impl Vector4<u64> for u64x4 {
+    impl_vector4_common!(u64x4, u64, 64);
+
 
     #[cfg(feature = "simd_opt")]
     #[cfg(any(all(target_arch = "arm", not(feature = "simd_asm")),