Separate simd equation impl and headers

stevenewald · stevenewald · commit 5b293ecc656a · 2024-11-24T21:12:25.000-06:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -25,6 +25,7 @@ add_library(
     source/mandelbrot/mandelbrot_window.cpp
     source/graphics/color_conversions/color_conversions.cpp
     source/graphics/aspect_ratio/aspect_ratio.cpp
+    source/mandelbrot/equations_simd.cpp
 )
 
 target_include_directories(
diff --git a/source/mandelbrot/equations.hpp b/source/mandelbrot/equations.hpp
@@ -3,90 +3,27 @@
 #include "config.hpp"
 #include "units.hpp"
 
-#include <immintrin.h>
-
 namespace fractal {
 // https://en.wikipedia.org/wiki/Mandelbrot_set#Formal_definition
-
 inline std::complex<complex_underlying>
 step(std::complex<complex_underlying> z_n, std::complex<complex_underlying> constant)
 {
     return z_n * z_n + constant;
 }
 
-inline std::array<iteration_count, 8> compute_iterations(
-    std::array<std::complex<complex_underlying>, 8> z_0,
-    std::array<std::complex<complex_underlying>, 8> constant, iteration_count max_iters
+inline iteration_count compute_iterations(
+    std::complex<complex_underlying> z_0, std::complex<complex_underlying> constant,
+    iteration_count max_iters
 )
 {
-    static const auto SQUARED_DIVERGENCE =
-        MANDELBROT_DIVERGENCE_NORM * MANDELBROT_DIVERGENCE_NORM;
-
-    alignas(64) std::array<double, 8> reals = {z_0[0].real(), z_0[1].real(),
-                                               z_0[2].real(), z_0[3].real(),
-                                               z_0[4].real(), z_0[5].real(),
-                                               z_0[6].real(), z_0[7].real()};
-    alignas(64) std::array<double, 8> imags = {z_0[0].imag(), z_0[1].imag(),
-                                               z_0[2].imag(), z_0[3].imag(),
-                                               z_0[4].imag(), z_0[5].imag(),
-                                               z_0[6].imag(), z_0[7].imag()};
-    alignas(64) std::array<double, 8> const_reals = {
-        constant[0].real(), constant[1].real(), constant[2].real(), constant[3].real(),
-        constant[4].real(), constant[5].real(), constant[6].real(), constant[7].real()
-    };
-    alignas(64) std::array<double, 8> const_imags = {
-        constant[0].imag(), constant[1].imag(), constant[2].imag(), constant[3].imag(),
-        constant[4].imag(), constant[5].imag(), constant[6].imag(), constant[7].imag()
-    };
-
-    std::array<iteration_count, 8> solved_its = {0};
     iteration_count iterations = 0;
+    std::complex<complex_underlying> z_n = z_0;
 
-    __m512d input_vec_real = _mm512_load_pd(reals.data());
-    __m512d input_vec_imag = _mm512_load_pd(imags.data());
-    __m512d input_vec_constant_imags = _mm512_load_pd(const_imags.data());
-    __m512d input_vec_constant_reals = _mm512_load_pd(const_reals.data());
-    __m512i solved_its_vec = _mm512_loadu_epi16(solved_its.data());
-
-    while (iterations < max_iters) {
-        // Square real
-        __m512d squared_vec_real = _mm512_mul_pd(input_vec_real, input_vec_real);
-
-        // Square imag
-        __m512d squared_vec_imag = _mm512_mul_pd(input_vec_imag, input_vec_imag);
-
-        // Create imags
-        __m512d real_x2 = _mm512_mul_pd(input_vec_real, _mm512_set1_pd(2));
-        input_vec_imag =
-            _mm512_fmadd_pd(real_x2, input_vec_imag, input_vec_constant_imags);
-
-        // Create reals
-        __m512d subtracted_squared = _mm512_sub_pd(squared_vec_real, squared_vec_imag);
-        input_vec_real = _mm512_add_pd(subtracted_squared, input_vec_constant_reals);
-
-        // Create squared norms
-        __m512d squared_norms_vec = _mm512_add_pd(squared_vec_real, squared_vec_imag);
-        __mmask8 solved_mask = _mm512_cmp_pd_mask(
-            squared_norms_vec, _mm512_set1_pd(SQUARED_DIVERGENCE), _CMP_GT_OS
-        );
-
-        uint32_t solved = _cvtmask8_u32(solved_mask);
-        solved_its_vec = _mm512_mask_blend_epi16(
-            solved_mask, solved_its_vec, _mm512_set1_epi16(iterations)
-        );
-        if (solved == 0xFF) [[unlikely]]
-            break;
-
+    while (iterations < max_iters && std::norm(z_n) < MANDELBROT_DIVERGENCE_NORM) {
+        z_n = step(z_n, constant);
         ++iterations;
     }
 
-    _mm512_storeu_epi16(solved_its.data(), solved_its_vec);
-    for (int i = 0; i < 8; i++) {
-        if (solved_its[i] == 0) {
-            solved_its[i] = max_iters;
-        }
-    }
-
-    return solved_its;
+    return iterations;
 }
 } // namespace fractal
diff --git a/source/mandelbrot/equations_nsd.hpp b/source/mandelbrot/equations_nsd.hpp
diff --git a/source/mandelbrot/equations_simd.cpp b/source/mandelbrot/equations_simd.cpp
@@ -0,0 +1,77 @@
+#include "equations.hpp"
+
+namespace fractal {
+std::array<iteration_count, 8> compute_iterations(
+    const std::array<std::complex<complex_underlying>, 8>& z_0,
+    const std::array<std::complex<complex_underlying>, 8>& constant,
+    iteration_count max_iters
+)
+{
+    static const auto SQUARED_DIVERGENCE =
+        MANDELBROT_DIVERGENCE_NORM * MANDELBROT_DIVERGENCE_NORM;
+
+    alignas(64) std::array<double, 8> reals = {z_0[0].real(), z_0[1].real(),
+                                               z_0[2].real(), z_0[3].real(),
+                                               z_0[4].real(), z_0[5].real(),
+                                               z_0[6].real(), z_0[7].real()};
+    alignas(64) std::array<double, 8> imags = {z_0[0].imag(), z_0[1].imag(),
+                                               z_0[2].imag(), z_0[3].imag(),
+                                               z_0[4].imag(), z_0[5].imag(),
+                                               z_0[6].imag(), z_0[7].imag()};
+    alignas(64) std::array<double, 8> const_reals = {
+        constant[0].real(), constant[1].real(), constant[2].real(), constant[3].real(),
+        constant[4].real(), constant[5].real(), constant[6].real(), constant[7].real()
+    };
+    alignas(64) std::array<double, 8> const_imags = {
+        constant[0].imag(), constant[1].imag(), constant[2].imag(), constant[3].imag(),
+        constant[4].imag(), constant[5].imag(), constant[6].imag(), constant[7].imag()
+    };
+
+    std::array<iteration_count, 8> solved_its = {0};
+
+    __m512d input_vec_real = _mm512_load_pd(reals.data());
+    __m512d input_vec_imag = _mm512_load_pd(imags.data());
+    __m512d input_vec_constant_imags = _mm512_load_pd(const_imags.data());
+    __m512d input_vec_constant_reals = _mm512_load_pd(const_reals.data());
+    __m512i solved_its_vec = _mm512_loadu_epi16(solved_its.data());
+
+    for (iteration_count iterations = 0; iterations < max_iters; iterations++) {
+        // Square real
+        __m512d squared_vec_real = _mm512_mul_pd(input_vec_real, input_vec_real);
+
+        // Square imag
+        __m512d squared_vec_imag = _mm512_mul_pd(input_vec_imag, input_vec_imag);
+
+        // Create imags
+        __m512d real_x2 = _mm512_mul_pd(input_vec_real, _mm512_set1_pd(2));
+        input_vec_imag =
+            _mm512_fmadd_pd(real_x2, input_vec_imag, input_vec_constant_imags);
+
+        // Create reals
+        __m512d subtracted_squared = _mm512_sub_pd(squared_vec_real, squared_vec_imag);
+        input_vec_real = _mm512_add_pd(subtracted_squared, input_vec_constant_reals);
+
+        // Create squared norms
+        __m512d squared_norms_vec = _mm512_add_pd(squared_vec_real, squared_vec_imag);
+        __mmask8 solved_mask = _mm512_cmp_pd_mask(
+            squared_norms_vec, _mm512_set1_pd(SQUARED_DIVERGENCE), _CMP_GT_OS
+        );
+
+        uint32_t solved = _cvtmask8_u32(solved_mask);
+        solved_its_vec = _mm512_mask_blend_epi16(
+            solved_mask, solved_its_vec,
+            _mm512_set1_epi16(static_cast<int16_t>(iterations))
+        );
+        if (solved == 0xFF) [[unlikely]]
+            break;
+    }
+
+    __mmask32 mask = _mm512_cmpeq_epi16_mask(solved_its_vec, _mm512_set1_epi16(0));
+    solved_its_vec = _mm512_mask_mov_epi16(
+        solved_its_vec, mask, _mm512_set1_epi16(static_cast<int16_t>(max_iters))
+    );
+    _mm512_storeu_epi16(solved_its.data(), solved_its_vec);
+
+    return solved_its;
+}
+} // namespace fractal
diff --git a/source/mandelbrot/equations_simd.hpp b/source/mandelbrot/equations_simd.hpp
@@ -0,0 +1,19 @@
+#pragma once
+
+#include "config.hpp"
+#include "units.hpp"
+
+#include <immintrin.h>
+
+namespace fractal {
+// https://en.wikipedia.org/wiki/Mandelbrot_set#Formal_definition
+
+std::complex<complex_underlying>
+step(std::complex<complex_underlying> z_n, std::complex<complex_underlying> constant);
+
+std::array<iteration_count, 8> compute_iterations(
+    const std::array<std::complex<complex_underlying>, 8>& z_0,
+    const std::array<std::complex<complex_underlying>, 8>& constant,
+    iteration_count max_iters
+);
+} // namespace fractal
diff --git a/source/mandelbrot/mandelbrot_window.cpp b/source/mandelbrot/mandelbrot_window.cpp
@@ -2,7 +2,7 @@
 
 #include "config.hpp"
 #include "coordinates.hpp"
-#include "equations.hpp"
+#include "equations_simd.hpp"
 #include "graphics/aspect_ratio/aspect_ratio.hpp"
 #include "graphics/color_conversions/color_conversions.hpp"
 #include "graphics/display_to_complex.hpp"
@@ -28,7 +28,7 @@ void MandelbrotWindow::draw_coordinate_(
     const std::array<std::complex<complex_underlying>, 8>& complex_coords
 )
 {
-    std::array<std::complex<complex_underlying>, 8> starts = {
+    static constexpr std::array<std::complex<complex_underlying>, 8> starts = {
         std::complex<complex_underlying>{0, 0}
     };
     auto iterations =

Original file line number	Diff line number	Diff line change
`@@ -25,6 +25,7 @@ add_library(`
`25`	`25`	`source/mandelbrot/mandelbrot_window.cpp`
`26`	`26`	`source/graphics/color_conversions/color_conversions.cpp`
`27`	`27`	`source/graphics/aspect_ratio/aspect_ratio.cpp`
	`28`	`+ source/mandelbrot/equations_simd.cpp`
`28`	`29`	`)`
`29`	`30`
`30`	`31`	`target_include_directories(`