minor progress

chriselrod · chriselrod · commit 60a30a533be0 · 2024-08-26T21:15:59.000-04:00
diff --git a/src/rdivl.jl b/src/rdivl.jl
@@ -268,7 +268,13 @@ end
     for _ ∈ 1:Nd
       k = N - n
       n -= W
-      rdivl_solve_W!(gesp(spa, (z, n)), gesp(spl, (n, n)), k, mask, Val(UNIT))
+      rdivl_solve_W!(
+        gesp(spa, (z, n)),
+        gesp(spl, (n, n)),
+        k,
+        Mask{W}(mask),
+        Val(UNIT)
+      )
     end
     spa = gesp(spa, (WS, StaticInt(0)))
     m = ubm
@@ -602,6 +608,7 @@ end
     end
   end
 end
+# B_{n,m} = (A_{n,m} - \sum_{i=n+1}^N U_{n,i}B_{i,m})/U_{n,n}
 function _ldivu_L!(
   M,
   N,
@@ -616,10 +623,35 @@ function _ldivu_L!(
   W = Int(WS)
   UF = unroll_factor(WS)
   WU = UF * WS
-  Nr = VectorizationBase.vrem(N, WS)
+# for ldiv, we unroll over `n`
+  Nd, Nr = VectorizationBase.vdivrem(N, WS)
+  z = StaticInt(0)
   m = 0
   # m, no remainder
   while m < M - WS + 1
+    n = Int(Nd * W)::Int
+    if Nr > 0
+      let t = (gesp(spa, (n, z)), gesp(spl, (n, n))), ft = flatten_to_tup(t)
+        BdivL_small_kern_u!(Nr, StaticInt(1), Val(UNIT), WS, typeof(t), ft...)
+      end
+    end
+    for _ ∈ 1:Nd
+      k = N - n
+      n -= W
+      ldivu_solve_W_u!(
+        gesp(spa, (n, z)),
+        gesp(spl, (n, n)),
+        k,
+        WS,
+        UF,
+        Val(UNIT)
+      )
+    end
+    while n < N - (WU - 1)
+      ldivu_solve_W_u!(spa, spl, n, WS, UF, Val(UNIT))
+      n += WU
+    end
+
     n = Nr # non factor of W remainder
     if n > 0
       let t = (spa, spl), ft = flatten_to_tup(t)
@@ -635,7 +667,7 @@ function _ldivu_L!(
       n += W
     end
     m += W
-    spa = gesp(spa, (W, StaticInt(0)))
+    spa = gesp(spa, (W, z))
   end
   # remainder on `m`
   if m < M
@@ -803,8 +835,7 @@ function ldiv!(
 end
 function ldiv!(
   U::UnitUpperTriangular{T},
-  A::AbstractMatrix{T},
-  ::Val{false}
+  A::AbstractMatrix{T}
 ) where {T<:Union{Float32,Float64}}
   rdivl_dispatch!(transpose(A), transpose(parent(U)), Val(true))
   return A
@@ -817,3 +848,72 @@ function ldiv!(
   rdivl_dispatch!(transpose(copyto!(C, A)), transpose(parent(U)), Val(true))
   return C
 end
+
+function rdiv!(
+  A::AbstractMatrix{T},
+  U::LowerTriangular{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(A, parent(U), Val(false))
+  return A
+end
+function rdiv!(
+  C::AbstractMatrix{T},
+  A::AbstractMatrix{T},
+  U::LowerTriangular{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(copyto!(C, A), parent(U), Val(false))
+  return C
+end
+function rdiv!(
+  A::AbstractMatrix{T},
+  U::UnitLowerTriangular{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(A, parent(U), Val(true))
+  return A
+end
+function rdiv!(
+  C::AbstractMatrix{T},
+  A::AbstractMatrix{T},
+  U::UnitLowerTriangular{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(copyto!(C, A), parent(U), Val(true))
+  return C
+end
+function ldiv!(
+  U::UpperTriangular{T},
+  A::AbstractMatrix{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(transpose(A), transpose(parent(U)), Val(false))
+  return A
+end
+function ldiv!(
+  C::AbstractMatrix{T},
+  U::UpperTriangular{T},
+  A::AbstractMatrix{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(transpose(copyto!(C, A)), transpose(parent(U)), Val(false))
+  return C
+end
+function ldiv!(
+  U::UnitUpperTriangular{T},
+  A::AbstractMatrix{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(transpose(A), transpose(parent(U)), Val(true))
+  return A
+end
+function ldiv!(
+  C::AbstractMatrix{T},
+  U::UnitUpperTriangular{T},
+  A::AbstractMatrix{T},
+  ::Val
+) where {T<:Union{Float32,Float64}}
+  rdivl_dispatch!(transpose(copyto!(C, A)), transpose(parent(U)), Val(true))
+  return C
+end
diff --git a/src/rdivu.jl b/src/rdivu.jl
@@ -256,7 +256,7 @@ end
     # So, we'll use `U = 1`, and transpose blocks
     # We then have column-major multiplies
     Base.Cartesian.@nexprs $U u -> begin
-      # take A[(u-1)*W,u*W), [0,W)]
+      # take A[[(u-1)*W,u*W), [0,W)]
       X_u = getfield(
         VectorizationBase.transpose_vecunroll(
           VecUnroll(
@@ -460,15 +460,12 @@ end
     mask = nomaskiter ? maxmask : finalmask
     n = Nr
     if n > 0
-      let t = (spa, spu),
-        ft = flatten_to_tup(t),
-        mask = getfield(mask, :u) % UInt32
-
+      let t = (spa, spu), ft = flatten_to_tup(t)
         BdivU_small_kern!(n, mask, WS, Val(UNIT), typeof(t), ft...)
       end
     end
     for _ ∈ 1:Nd
-      rdivu_solve_W!(spa, spu, n, mask, Val(UNIT))
+      rdivu_solve_W!(spa, spu, n, Mask{W}(mask), Val(UNIT))
       n += W
     end
     spa = gesp(spa, (WS, StaticInt(0)))
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -26,33 +26,37 @@ function test_solve(::Type{T}) where {T}
       B .= rand.(T)
       @view(B[diagind(B)]) .+= one(T)
 
-      @test TriangularSolve.rdiv!(res, A, UpperTriangular(B)) *
-            UpperTriangular(B) ≈ A
-      @test TriangularSolve.rdiv!(res, A, UnitUpperTriangular(B)) *
-            UnitUpperTriangular(B) ≈ A
-      @test TriangularSolve.rdiv!(res, A, UpperTriangular(B), Val(false)) *
-            UpperTriangular(B) ≈ A
-      @test TriangularSolve.rdiv!(res, A, UnitUpperTriangular(B), Val(false)) *
-            UnitUpperTriangular(B) ≈ A
+      for C in (
+        UpperTriangular(B),
+        UnitUpperTriangular(B),
+        LowerTriangular(B),
+        UnitLowerTriangular(B)
+      )
+        @test TriangularSolve.rdiv!(res, A, C) * C ≈ A
+        check_box_for_nans(RR, m, n)
+        @test TriangularSolve.rdiv!(res, A, C, Val(false)) * C ≈ A
+        check_box_for_nans(RR, m, n)
+      end
 
-      check_box_for_nans(RR, m, n)
       res .= NaN
       A .= NaN
 
       A = @view AA[17:16+n, 17:16+m]
       res = @view RR[17:16+n, 17:16+m]
       A .= rand.(T)
 
-      @test LowerTriangular(B) *
-            TriangularSolve.ldiv!(res, LowerTriangular(B), A) ≈ A
-      @test UnitLowerTriangular(B) *
-            TriangularSolve.ldiv!(res, UnitLowerTriangular(B), A) ≈ A
-      @test LowerTriangular(B) *
-            TriangularSolve.ldiv!(res, LowerTriangular(B), A, Val(false)) ≈ A
-      @test UnitLowerTriangular(B) *
-            TriangularSolve.ldiv!(res, UnitLowerTriangular(B), A, Val(false)) ≈
-            A
-      check_box_for_nans(RR, n, m)
+      for C in (
+        UpperTriangular(B),
+        UnitUpperTriangular(B),
+        LowerTriangular(B),
+        UnitLowerTriangular(B)
+      )
+        @test C * TriangularSolve.ldiv!(res, C, A) ≈ A
+        check_box_for_nans(RR, n, m)
+        @test C * TriangularSolve.ldiv!(res, C, A, Val(false)) ≈ A
+        check_box_for_nans(RR, n, m)
+      end
+
       res .= NaN
       A .= NaN
       B .= NaN