Specialise highbd Neon vert convolution for 4-tap filters

jwright-arm · jwright-arm · commit 3127962e7160 · 2024-02-09T15:37:51.000Z
Add a highbd Neon implementation of vertical convolution specialised
for executing with 4-tap filters. This new path is also used when
executing with bilinear (2-tap) filters.

Change-Id: I30469c7b8e6ccff31d96588a3e4c21b401f1ed09
diff --git a/vpx_dsp/arm/highbd_vpx_convolve8_neon.c b/vpx_dsp/arm/highbd_vpx_convolve8_neon.c
@@ -376,24 +376,78 @@ void vpx_highbd_convolve8_avg_horiz_neon(const uint16_t *src,
   }
 }
 
-void vpx_highbd_convolve8_vert_neon(const uint16_t *src, ptrdiff_t src_stride,
-                                    uint16_t *dst, ptrdiff_t dst_stride,
-                                    const InterpKernel *filter, int x0_q4,
-                                    int x_step_q4, int y0_q4, int y_step_q4,
-                                    int w, int h, int bd) {
-  if (y_step_q4 != 16) {
-    vpx_highbd_convolve8_vert_c(src, src_stride, dst, dst_stride, filter, x0_q4,
-                                x_step_q4, y0_q4, y_step_q4, w, h, bd);
-    return;
-  }
+static INLINE void highbd_convolve_4tap_vert_neon(
+    const uint16_t *src, ptrdiff_t src_stride, uint16_t *dst,
+    ptrdiff_t dst_stride, int w, int h, const int16x4_t filter, int bd) {
+  if (w == 4) {
+    const uint16x4_t max = vdup_n_u16((1 << bd) - 1);
+    const int16_t *s = (const int16_t *)src;
+    uint16_t *d = dst;
 
-  assert((intptr_t)dst % 4 == 0);
-  assert(dst_stride % 4 == 0);
+    int16x4_t s0, s1, s2;
+    load_s16_4x3(s, src_stride, &s0, &s1, &s2);
 
-  const int16x8_t filters = vld1q_s16(filter[y0_q4]);
+    s += 3 * src_stride;
 
-  src -= 3 * src_stride;
+    do {
+      int16x4_t s3, s4, s5, s6;
+      load_s16_4x4(s, src_stride, &s3, &s4, &s5, &s6);
+
+      uint16x4_t d0 = highbd_convolve4_4(s0, s1, s2, s3, filter, max);
+      uint16x4_t d1 = highbd_convolve4_4(s1, s2, s3, s4, filter, max);
+      uint16x4_t d2 = highbd_convolve4_4(s2, s3, s4, s5, filter, max);
+      uint16x4_t d3 = highbd_convolve4_4(s3, s4, s5, s6, filter, max);
+
+      store_u16_4x4(d, dst_stride, d0, d1, d2, d3);
+
+      s0 = s4;
+      s1 = s5;
+      s2 = s6;
+      s += 4 * src_stride;
+      d += 4 * dst_stride;
+      h -= 4;
+    } while (h != 0);
+  } else {
+    const uint16x8_t max = vdupq_n_u16((1 << bd) - 1);
+
+    do {
+      const int16_t *s = (const int16_t *)src;
+      uint16_t *d = dst;
+      int height = h;
+
+      int16x8_t s0, s1, s2;
+      load_s16_8x3(s, src_stride, &s0, &s1, &s2);
+
+      s += 3 * src_stride;
+
+      do {
+        int16x8_t s3, s4, s5, s6;
+        load_s16_8x4(s, src_stride, &s3, &s4, &s5, &s6);
+
+        uint16x8_t d0 = highbd_convolve4_8(s0, s1, s2, s3, filter, max);
+        uint16x8_t d1 = highbd_convolve4_8(s1, s2, s3, s4, filter, max);
+        uint16x8_t d2 = highbd_convolve4_8(s2, s3, s4, s5, filter, max);
+        uint16x8_t d3 = highbd_convolve4_8(s3, s4, s5, s6, filter, max);
+
+        store_u16_8x4(d, dst_stride, d0, d1, d2, d3);
 
+        s0 = s4;
+        s1 = s5;
+        s2 = s6;
+        s += 4 * src_stride;
+        d += 4 * dst_stride;
+        height -= 4;
+      } while (height != 0);
+      src += 8;
+      dst += 8;
+      w -= 8;
+    } while (w != 0);
+  }
+}
+
+static INLINE void highbd_convolve_8tap_vert_neon(
+    const uint16_t *src, ptrdiff_t src_stride, uint16_t *dst,
+    ptrdiff_t dst_stride, int w, int h, const int16x8_t filter, int bd) {
   if (w == 4) {
     const uint16x4_t max = vdup_n_u16((1 << bd) - 1);
     const int16_t *s = (const int16_t *)src;
@@ -409,13 +463,13 @@ void vpx_highbd_convolve8_vert_neon(const uint16_t *src, ptrdiff_t src_stride,
       load_s16_4x4(s, src_stride, &s7, &s8, &s9, &s10);
 
       uint16x4_t d0 =
-          highbd_convolve8_4(s0, s1, s2, s3, s4, s5, s6, s7, filters, max);
+          highbd_convolve8_4(s0, s1, s2, s3, s4, s5, s6, s7, filter, max);
       uint16x4_t d1 =
-          highbd_convolve8_4(s1, s2, s3, s4, s5, s6, s7, s8, filters, max);
+          highbd_convolve8_4(s1, s2, s3, s4, s5, s6, s7, s8, filter, max);
       uint16x4_t d2 =
-          highbd_convolve8_4(s2, s3, s4, s5, s6, s7, s8, s9, filters, max);
+          highbd_convolve8_4(s2, s3, s4, s5, s6, s7, s8, s9, filter, max);
       uint16x4_t d3 =
-          highbd_convolve8_4(s3, s4, s5, s6, s7, s8, s9, s10, filters, max);
+          highbd_convolve8_4(s3, s4, s5, s6, s7, s8, s9, s10, filter, max);
 
       store_u16_4x4(d, dst_stride, d0, d1, d2, d3);
 
@@ -448,13 +502,13 @@ void vpx_highbd_convolve8_vert_neon(const uint16_t *src, ptrdiff_t src_stride,
         load_s16_8x4(s, src_stride, &s7, &s8, &s9, &s10);
 
         uint16x8_t d0 =
-            highbd_convolve8_8(s0, s1, s2, s3, s4, s5, s6, s7, filters, max);
+            highbd_convolve8_8(s0, s1, s2, s3, s4, s5, s6, s7, filter, max);
         uint16x8_t d1 =
-            highbd_convolve8_8(s1, s2, s3, s4, s5, s6, s7, s8, filters, max);
+            highbd_convolve8_8(s1, s2, s3, s4, s5, s6, s7, s8, filter, max);
         uint16x8_t d2 =
-            highbd_convolve8_8(s2, s3, s4, s5, s6, s7, s8, s9, filters, max);
+            highbd_convolve8_8(s2, s3, s4, s5, s6, s7, s8, s9, filter, max);
         uint16x8_t d3 =
-            highbd_convolve8_8(s3, s4, s5, s6, s7, s8, s9, s10, filters, max);
+            highbd_convolve8_8(s3, s4, s5, s6, s7, s8, s9, s10, filter, max);
 
         store_u16_8x4(d, dst_stride, d0, d1, d2, d3);
 
@@ -476,6 +530,36 @@ void vpx_highbd_convolve8_vert_neon(const uint16_t *src, ptrdiff_t src_stride,
   }
 }
 
+void vpx_highbd_convolve8_vert_neon(const uint16_t *src, ptrdiff_t src_stride,
+                                    uint16_t *dst, ptrdiff_t dst_stride,
+                                    const InterpKernel *filter, int x0_q4,
+                                    int x_step_q4, int y0_q4, int y_step_q4,
+                                    int w, int h, int bd) {
+  if (y_step_q4 != 16) {
+    vpx_highbd_convolve8_vert_c(src, src_stride, dst, dst_stride, filter, x0_q4,
+                                x_step_q4, y0_q4, y_step_q4, w, h, bd);
+    return;
+  }
+
+  assert((intptr_t)dst % 4 == 0);
+  assert(dst_stride % 4 == 0);
+  assert(y_step_q4 == 16);
+
+  (void)x_step_q4;
+  (void)y0_q4;
+  (void)y_step_q4;
+
+  if (vpx_get_filter_taps(filter[y0_q4]) <= 4) {
+    const int16x4_t y_filter_4tap = vld1_s16(filter[y0_q4] + 2);
+    highbd_convolve_4tap_vert_neon(src - src_stride, src_stride, dst,
+                                   dst_stride, w, h, y_filter_4tap, bd);
+  } else {
+    const int16x8_t y_filter_8tap = vld1q_s16(filter[y0_q4]);
+    highbd_convolve_8tap_vert_neon(src - 3 * src_stride, src_stride, dst,
+                                   dst_stride, w, h, y_filter_8tap, bd);
+  }
+}
+
 void vpx_highbd_convolve8_avg_vert_neon(const uint16_t *src,
                                         ptrdiff_t src_stride, uint16_t *dst,
                                         ptrdiff_t dst_stride,
diff --git a/vpx_dsp/arm/mem_neon.h b/vpx_dsp/arm/mem_neon.h
@@ -448,6 +448,15 @@ static INLINE void store_u16_4x3(uint16_t *s, const ptrdiff_t p,
   vst1_u16(s, s2);
 }
 
+static INLINE void load_s16_4x3(const int16_t *s, const ptrdiff_t p,
+                                int16x4_t *s0, int16x4_t *s1, int16x4_t *s2) {
+  *s0 = vld1_s16(s);
+  s += p;
+  *s1 = vld1_s16(s);
+  s += p;
+  *s2 = vld1_s16(s);
+}
+
 static INLINE void load_s16_4x4(const int16_t *s, const ptrdiff_t p,
                                 int16x4_t *s0, int16x4_t *s1, int16x4_t *s2,
                                 int16x4_t *s3) {
@@ -491,6 +500,15 @@ static INLINE void load_s16_4x7(const int16_t *s, const ptrdiff_t p,
   *s6 = vld1_s16(s);
 }
 
+static INLINE void load_s16_8x3(const int16_t *s, const ptrdiff_t p,
+                                int16x8_t *s0, int16x8_t *s1, int16x8_t *s2) {
+  *s0 = vld1q_s16(s);
+  s += p;
+  *s1 = vld1q_s16(s);
+  s += p;
+  *s2 = vld1q_s16(s);
+}
+
 static INLINE void load_s16_8x4(const int16_t *s, const ptrdiff_t p,
                                 int16x8_t *s0, int16x8_t *s1, int16x8_t *s2,
                                 int16x8_t *s3) {