tf nndistance

art-programmer · art-programmer · commit ea4da223d493 · 2017-12-20T11:12:38.000-06:00
diff --git a/makefile b/makefile
@@ -0,0 +1,12 @@
+nvcc = /usr/local/cuda/bin/nvcc
+cudalib = /usr/local/cuda/lib64/
+tensorflow = /usr/local/lib/python2.7/dist-packages/tensorflow/include
+
+all: tf_nndistance_so.so
+.PHONY : all
+
+tf_nndistance_so.so: tf_nndistance_g.cu.o tf_nndistance.cpp
+	g++ -std=c++11 tf_nndistance.cpp tf_nndistance_g.cu.o -o tf_nndistance_so.so -shared -fPIC -I $(tensorflow) -lcudart -L $(cudalib) -O2 -D_GLIBCXX_USE_CXX11_ABI=0
+
+tf_nndistance_g.cu.o: tf_nndistance_g.cu
+	$(nvcc) -D_GLIBCXX_USE_CXX11_ABI=0 -std=c++11 -c -o tf_nndistance_g.cu.o tf_nndistance_g.cu -I $(tensorflow) -DGOOGLE_CUDA=1 -x cu -Xcompiler -fPIC -O2
diff --git a/tf_nndistance.cpp b/tf_nndistance.cpp
@@ -0,0 +1,254 @@
+#include "tensorflow/core/framework/op.h"
+#include "tensorflow/core/framework/op_kernel.h"
+REGISTER_OP("NnDistance")
+	.Input("xyz1: float32")
+	.Input("xyz2: float32")
+	.Output("dist1: float32")
+	.Output("idx1: int32")
+	.Output("dist2: float32")
+	.Output("idx2: int32");
+REGISTER_OP("NnDistanceGrad")
+	.Input("xyz1: float32")
+	.Input("xyz2: float32")
+	.Input("grad_dist1: float32")
+	.Input("idx1: int32")
+	.Input("grad_dist2: float32")
+	.Input("idx2: int32")
+	.Output("grad_xyz1: float32")
+	.Output("grad_xyz2: float32");
+using namespace tensorflow;
+
+static void nnsearch(int b,int n,int m,const float * xyz1,const float * xyz2,float * dist,int * idx){
+	for (int i=0;i<b;i++){
+		for (int j=0;j<n;j++){
+			float x1=xyz1[(i*n+j)*3+0];
+			float y1=xyz1[(i*n+j)*3+1];
+			float z1=xyz1[(i*n+j)*3+2];
+			double best=0;
+			int besti=0;
+			for (int k=0;k<m;k++){
+				float x2=xyz2[(i*m+k)*3+0]-x1;
+				float y2=xyz2[(i*m+k)*3+1]-y1;
+				float z2=xyz2[(i*m+k)*3+2]-z1;
+				double d=x2*x2+y2*y2+z2*z2;
+				if (k==0 || d<best){
+					best=d;
+					besti=k;
+				}
+			}
+			dist[i*n+j]=best;
+			idx[i*n+j]=besti;
+		}
+	}
+}
+
+class NnDistanceOp : public OpKernel{
+	public:
+		explicit NnDistanceOp(OpKernelConstruction* context):OpKernel(context){}
+		void Compute(OpKernelContext * context)override{
+			const Tensor& xyz1_tensor=context->input(0);
+			const Tensor& xyz2_tensor=context->input(1);
+			OP_REQUIRES(context,xyz1_tensor.dims()==3,errors::InvalidArgument("NnDistance requires xyz1 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz1_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistance only accepts 3d point set xyz1"));
+			int b=xyz1_tensor.shape().dim_size(0);
+			int n=xyz1_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.dims()==3,errors::InvalidArgument("NnDistance requires xyz2 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistance only accepts 3d point set xyz2"));
+			int m=xyz2_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(0)==b,errors::InvalidArgument("NnDistance expects xyz1 and xyz2 have same batch size"));
+			auto xyz1_flat=xyz1_tensor.flat<float>();
+			const float * xyz1=&xyz1_flat(0);
+			auto xyz2_flat=xyz2_tensor.flat<float>();
+			const float * xyz2=&xyz2_flat(0);
+			Tensor * dist1_tensor=NULL;
+			Tensor * idx1_tensor=NULL;
+			Tensor * dist2_tensor=NULL;
+			Tensor * idx2_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(0,TensorShape{b,n},&dist1_tensor));
+			OP_REQUIRES_OK(context,context->allocate_output(1,TensorShape{b,n},&idx1_tensor));
+			auto dist1_flat=dist1_tensor->flat<float>();
+			auto idx1_flat=idx1_tensor->flat<int>();
+			OP_REQUIRES_OK(context,context->allocate_output(2,TensorShape{b,m},&dist2_tensor));
+			OP_REQUIRES_OK(context,context->allocate_output(3,TensorShape{b,m},&idx2_tensor));
+			auto dist2_flat=dist2_tensor->flat<float>();
+			auto idx2_flat=idx2_tensor->flat<int>();
+			float * dist1=&(dist1_flat(0));
+			int * idx1=&(idx1_flat(0));
+			float * dist2=&(dist2_flat(0));
+			int * idx2=&(idx2_flat(0));
+			nnsearch(b,n,m,xyz1,xyz2,dist1,idx1);
+			nnsearch(b,m,n,xyz2,xyz1,dist2,idx2);
+		}
+};
+REGISTER_KERNEL_BUILDER(Name("NnDistance").Device(DEVICE_CPU), NnDistanceOp);
+class NnDistanceGradOp : public OpKernel{
+	public:
+		explicit NnDistanceGradOp(OpKernelConstruction* context):OpKernel(context){}
+		void Compute(OpKernelContext * context)override{
+			const Tensor& xyz1_tensor=context->input(0);
+			const Tensor& xyz2_tensor=context->input(1);
+			const Tensor& grad_dist1_tensor=context->input(2);
+			const Tensor& idx1_tensor=context->input(3);
+			const Tensor& grad_dist2_tensor=context->input(4);
+			const Tensor& idx2_tensor=context->input(5);
+			OP_REQUIRES(context,xyz1_tensor.dims()==3,errors::InvalidArgument("NnDistanceGrad requires xyz1 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz1_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistanceGrad only accepts 3d point set xyz1"));
+			int b=xyz1_tensor.shape().dim_size(0);
+			int n=xyz1_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.dims()==3,errors::InvalidArgument("NnDistanceGrad requires xyz2 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistanceGrad only accepts 3d point set xyz2"));
+			int m=xyz2_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(0)==b,errors::InvalidArgument("NnDistanceGrad expects xyz1 and xyz2 have same batch size"));
+			OP_REQUIRES(context,grad_dist1_tensor.shape()==(TensorShape{b,n}),errors::InvalidArgument("NnDistanceGrad requires grad_dist1 be of shape(batch,#points)"));
+			OP_REQUIRES(context,idx1_tensor.shape()==(TensorShape{b,n}),errors::InvalidArgument("NnDistanceGrad requires idx1 be of shape(batch,#points)"));
+			OP_REQUIRES(context,grad_dist2_tensor.shape()==(TensorShape{b,m}),errors::InvalidArgument("NnDistanceGrad requires grad_dist2 be of shape(batch,#points)"));
+			OP_REQUIRES(context,idx2_tensor.shape()==(TensorShape{b,m}),errors::InvalidArgument("NnDistanceGrad requires idx2 be of shape(batch,#points)"));
+			auto xyz1_flat=xyz1_tensor.flat<float>();
+			const float * xyz1=&xyz1_flat(0);
+			auto xyz2_flat=xyz2_tensor.flat<float>();
+			const float * xyz2=&xyz2_flat(0);
+			auto idx1_flat=idx1_tensor.flat<int>();
+			const int * idx1=&idx1_flat(0);
+			auto idx2_flat=idx2_tensor.flat<int>();
+			const int * idx2=&idx2_flat(0);
+			auto grad_dist1_flat=grad_dist1_tensor.flat<float>();
+			const float * grad_dist1=&grad_dist1_flat(0);
+			auto grad_dist2_flat=grad_dist2_tensor.flat<float>();
+			const float * grad_dist2=&grad_dist2_flat(0);
+			Tensor * grad_xyz1_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(0,TensorShape{b,n,3},&grad_xyz1_tensor));
+			Tensor * grad_xyz2_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(1,TensorShape{b,m,3},&grad_xyz2_tensor));
+			auto grad_xyz1_flat=grad_xyz1_tensor->flat<float>();
+			float * grad_xyz1=&grad_xyz1_flat(0);
+			auto grad_xyz2_flat=grad_xyz2_tensor->flat<float>();
+			float * grad_xyz2=&grad_xyz2_flat(0);
+			for (int i=0;i<b*n*3;i++)
+				grad_xyz1[i]=0;
+			for (int i=0;i<b*m*3;i++)
+				grad_xyz2[i]=0;
+			for (int i=0;i<b;i++){
+				for (int j=0;j<n;j++){
+					float x1=xyz1[(i*n+j)*3+0];
+					float y1=xyz1[(i*n+j)*3+1];
+					float z1=xyz1[(i*n+j)*3+2];
+					int j2=idx1[i*n+j];
+					float x2=xyz2[(i*m+j2)*3+0];
+					float y2=xyz2[(i*m+j2)*3+1];
+					float z2=xyz2[(i*m+j2)*3+2];
+					float g=grad_dist1[i*n+j]*2;
+					grad_xyz1[(i*n+j)*3+0]+=g*(x1-x2);
+					grad_xyz1[(i*n+j)*3+1]+=g*(y1-y2);
+					grad_xyz1[(i*n+j)*3+2]+=g*(z1-z2);
+					grad_xyz2[(i*m+j2)*3+0]-=(g*(x1-x2));
+					grad_xyz2[(i*m+j2)*3+1]-=(g*(y1-y2));
+					grad_xyz2[(i*m+j2)*3+2]-=(g*(z1-z2));
+				}
+				for (int j=0;j<m;j++){
+					float x1=xyz2[(i*m+j)*3+0];
+					float y1=xyz2[(i*m+j)*3+1];
+					float z1=xyz2[(i*m+j)*3+2];
+					int j2=idx2[i*m+j];
+					float x2=xyz1[(i*n+j2)*3+0];
+					float y2=xyz1[(i*n+j2)*3+1];
+					float z2=xyz1[(i*n+j2)*3+2];
+					float g=grad_dist2[i*m+j]*2;
+					grad_xyz2[(i*m+j)*3+0]+=g*(x1-x2);
+					grad_xyz2[(i*m+j)*3+1]+=g*(y1-y2);
+					grad_xyz2[(i*m+j)*3+2]+=g*(z1-z2);
+					grad_xyz1[(i*n+j2)*3+0]-=(g*(x1-x2));
+					grad_xyz1[(i*n+j2)*3+1]-=(g*(y1-y2));
+					grad_xyz1[(i*n+j2)*3+2]-=(g*(z1-z2));
+				}
+			}
+		}
+};
+REGISTER_KERNEL_BUILDER(Name("NnDistanceGrad").Device(DEVICE_CPU), NnDistanceGradOp);
+
+void NmDistanceKernelLauncher(int b,int n,const float * xyz,int m,const float * xyz2,float * result,int * result_i,float * result2,int * result2_i);
+class NnDistanceGpuOp : public OpKernel{
+	public:
+		explicit NnDistanceGpuOp(OpKernelConstruction* context):OpKernel(context){}
+		void Compute(OpKernelContext * context)override{
+			const Tensor& xyz1_tensor=context->input(0);
+			const Tensor& xyz2_tensor=context->input(1);
+			OP_REQUIRES(context,xyz1_tensor.dims()==3,errors::InvalidArgument("NnDistance requires xyz1 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz1_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistance only accepts 3d point set xyz1"));
+			int b=xyz1_tensor.shape().dim_size(0);
+			int n=xyz1_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.dims()==3,errors::InvalidArgument("NnDistance requires xyz2 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistance only accepts 3d point set xyz2"));
+			int m=xyz2_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(0)==b,errors::InvalidArgument("NnDistance expects xyz1 and xyz2 have same batch size"));
+			auto xyz1_flat=xyz1_tensor.flat<float>();
+			const float * xyz1=&xyz1_flat(0);
+			auto xyz2_flat=xyz2_tensor.flat<float>();
+			const float * xyz2=&xyz2_flat(0);
+			Tensor * dist1_tensor=NULL;
+			Tensor * idx1_tensor=NULL;
+			Tensor * dist2_tensor=NULL;
+			Tensor * idx2_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(0,TensorShape{b,n},&dist1_tensor));
+			OP_REQUIRES_OK(context,context->allocate_output(1,TensorShape{b,n},&idx1_tensor));
+			auto dist1_flat=dist1_tensor->flat<float>();
+			auto idx1_flat=idx1_tensor->flat<int>();
+			OP_REQUIRES_OK(context,context->allocate_output(2,TensorShape{b,m},&dist2_tensor));
+			OP_REQUIRES_OK(context,context->allocate_output(3,TensorShape{b,m},&idx2_tensor));
+			auto dist2_flat=dist2_tensor->flat<float>();
+			auto idx2_flat=idx2_tensor->flat<int>();
+			float * dist1=&(dist1_flat(0));
+			int * idx1=&(idx1_flat(0));
+			float * dist2=&(dist2_flat(0));
+			int * idx2=&(idx2_flat(0));
+			NmDistanceKernelLauncher(b,n,xyz1,m,xyz2,dist1,idx1,dist2,idx2);
+		}
+};
+REGISTER_KERNEL_BUILDER(Name("NnDistance").Device(DEVICE_GPU), NnDistanceGpuOp);
+
+void NmDistanceGradKernelLauncher(int b,int n,const float * xyz1,int m,const float * xyz2,const float * grad_dist1,const int * idx1,const float * grad_dist2,const int * idx2,float * grad_xyz1,float * grad_xyz2);
+class NnDistanceGradGpuOp : public OpKernel{
+	public:
+		explicit NnDistanceGradGpuOp(OpKernelConstruction* context):OpKernel(context){}
+		void Compute(OpKernelContext * context)override{
+			const Tensor& xyz1_tensor=context->input(0);
+			const Tensor& xyz2_tensor=context->input(1);
+			const Tensor& grad_dist1_tensor=context->input(2);
+			const Tensor& idx1_tensor=context->input(3);
+			const Tensor& grad_dist2_tensor=context->input(4);
+			const Tensor& idx2_tensor=context->input(5);
+			OP_REQUIRES(context,xyz1_tensor.dims()==3,errors::InvalidArgument("NnDistanceGrad requires xyz1 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz1_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistanceGrad only accepts 3d point set xyz1"));
+			int b=xyz1_tensor.shape().dim_size(0);
+			int n=xyz1_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.dims()==3,errors::InvalidArgument("NnDistanceGrad requires xyz2 be of shape (batch,#points,3)"));
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(2)==3,errors::InvalidArgument("NnDistanceGrad only accepts 3d point set xyz2"));
+			int m=xyz2_tensor.shape().dim_size(1);
+			OP_REQUIRES(context,xyz2_tensor.shape().dim_size(0)==b,errors::InvalidArgument("NnDistanceGrad expects xyz1 and xyz2 have same batch size"));
+			OP_REQUIRES(context,grad_dist1_tensor.shape()==(TensorShape{b,n}),errors::InvalidArgument("NnDistanceGrad requires grad_dist1 be of shape(batch,#points)"));
+			OP_REQUIRES(context,idx1_tensor.shape()==(TensorShape{b,n}),errors::InvalidArgument("NnDistanceGrad requires idx1 be of shape(batch,#points)"));
+			OP_REQUIRES(context,grad_dist2_tensor.shape()==(TensorShape{b,m}),errors::InvalidArgument("NnDistanceGrad requires grad_dist2 be of shape(batch,#points)"));
+			OP_REQUIRES(context,idx2_tensor.shape()==(TensorShape{b,m}),errors::InvalidArgument("NnDistanceGrad requires idx2 be of shape(batch,#points)"));
+			auto xyz1_flat=xyz1_tensor.flat<float>();
+			const float * xyz1=&xyz1_flat(0);
+			auto xyz2_flat=xyz2_tensor.flat<float>();
+			const float * xyz2=&xyz2_flat(0);
+			auto idx1_flat=idx1_tensor.flat<int>();
+			const int * idx1=&idx1_flat(0);
+			auto idx2_flat=idx2_tensor.flat<int>();
+			const int * idx2=&idx2_flat(0);
+			auto grad_dist1_flat=grad_dist1_tensor.flat<float>();
+			const float * grad_dist1=&grad_dist1_flat(0);
+			auto grad_dist2_flat=grad_dist2_tensor.flat<float>();
+			const float * grad_dist2=&grad_dist2_flat(0);
+			Tensor * grad_xyz1_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(0,TensorShape{b,n,3},&grad_xyz1_tensor));
+			Tensor * grad_xyz2_tensor=NULL;
+			OP_REQUIRES_OK(context,context->allocate_output(1,TensorShape{b,m,3},&grad_xyz2_tensor));
+			auto grad_xyz1_flat=grad_xyz1_tensor->flat<float>();
+			float * grad_xyz1=&grad_xyz1_flat(0);
+			auto grad_xyz2_flat=grad_xyz2_tensor->flat<float>();
+			float * grad_xyz2=&grad_xyz2_flat(0);
+			NmDistanceGradKernelLauncher(b,n,xyz1,m,xyz2,grad_dist1,idx1,grad_dist2,idx2,grad_xyz1,grad_xyz2);
+		}
+};
+REGISTER_KERNEL_BUILDER(Name("NnDistanceGrad").Device(DEVICE_GPU), NnDistanceGradGpuOp);
diff --git a/tf_nndistance.py b/tf_nndistance.py
@@ -0,0 +1,77 @@
+import tensorflow as tf
+from tensorflow.python.framework import ops
+nn_distance_module=tf.load_op_library('./tf_nndistance_so.so')
+
+def nn_distance(xyz1,xyz2):
+	'''
+Computes the distance of nearest neighbors for a pair of point clouds
+input: xyz1: (batch_size,#points_1,3)  the first point cloud
+input: xyz2: (batch_size,#points_2,3)  the second point cloud
+output: dist1: (batch_size,#point_1)   distance from first to second
+output: idx1:  (batch_size,#point_1)   nearest neighbor from first to second
+output: dist2: (batch_size,#point_2)   distance from second to first
+output: idx2:  (batch_size,#point_2)   nearest neighbor from second to first
+	'''
+        return nn_distance_module.nn_distance(xyz1,xyz2)
+#@tf.RegisterShape('NnDistance')
+#def _nn_distance_shape(op):
+	#shape1=op.inputs[0].get_shape().with_rank(3)
+	#shape2=op.inputs[1].get_shape().with_rank(3)
+	#return [tf.TensorShape([shape1.dims[0],shape1.dims[1]]),tf.TensorShape([shape1.dims[0],shape1.dims[1]]),
+		#tf.TensorShape([shape2.dims[0],shape2.dims[1]]),tf.TensorShape([shape2.dims[0],shape2.dims[1]])]
+@ops.RegisterGradient('NnDistance')
+def _nn_distance_grad(op,grad_dist1,grad_idx1,grad_dist2,grad_idx2):
+	xyz1=op.inputs[0]
+	xyz2=op.inputs[1]
+	idx1=op.outputs[1]
+	idx2=op.outputs[3]
+	return nn_distance_module.nn_distance_grad(xyz1,xyz2,grad_dist1,idx1,grad_dist2,idx2)
+
+
+if __name__=='__main__':
+	import numpy as np
+	import random
+	import time
+	from tensorflow.python.ops.gradient_checker import compute_gradient
+	random.seed(100)
+	np.random.seed(100)
+	with tf.Session('') as sess:
+		xyz1=np.random.randn(32,16384,3).astype('float32')
+		xyz2=np.random.randn(32,1024,3).astype('float32')
+		#with tf.device('/gpu:0'):
+		if True:
+			inp1=tf.Variable(xyz1)
+			inp2=tf.constant(xyz2)
+			reta,retb,retc,retd=nn_distance(inp1,inp2)
+			loss=tf.reduce_sum(reta)+tf.reduce_sum(retc)
+			train=tf.train.GradientDescentOptimizer(learning_rate=0.05).minimize(loss)
+		sess.run(tf.global_variables_initializer())
+		t0=time.time()
+		t1=t0
+		best=1e100
+		for i in xrange(100):
+			trainloss,_=sess.run([loss,train])
+			newt=time.time()
+			best=min(best,newt-t1)
+			print i,trainloss,(newt-t0)/(i+1),best
+			t1=newt
+		#print sess.run([inp1,retb,inp2,retd])
+		#grads=compute_gradient([inp1,inp2],[(16,32,3),(16,32,3)],loss,(1,),[xyz1,xyz2])
+		#for i,j in grads:
+			#print i.shape,j.shape,np.mean(np.abs(i-j)),np.mean(np.abs(i)),np.mean(np.abs(j))
+		#for i in xrange(10):
+			#t0=time.time()
+			#a,b,c,d=sess.run([reta,retb,retc,retd],feed_dict={inp1:xyz1,inp2:xyz2})
+			#print 'time',time.time()-t0
+		#print a.shape,b.shape,c.shape,d.shape
+		#print a.dtype,b.dtype,c.dtype,d.dtype
+		#samples=np.array(random.sample(range(xyz2.shape[1]),100),dtype='int32')
+		#dist1=((xyz1[:,samples,None,:]-xyz2[:,None,:,:])**2).sum(axis=-1).min(axis=-1)
+		#idx1=((xyz1[:,samples,None,:]-xyz2[:,None,:,:])**2).sum(axis=-1).argmin(axis=-1)
+		#print np.abs(dist1-a[:,samples]).max()
+		#print np.abs(idx1-b[:,samples]).max()
+		#dist2=((xyz2[:,samples,None,:]-xyz1[:,None,:,:])**2).sum(axis=-1).min(axis=-1)
+		#idx2=((xyz2[:,samples,None,:]-xyz1[:,None,:,:])**2).sum(axis=-1).argmin(axis=-1)
+		#print np.abs(dist2-c[:,samples]).max()
+		#print np.abs(idx2-d[:,samples]).max()
+
diff --git a/tf_nndistance_g.cu b/tf_nndistance_g.cu