Make leb128 coding a bit faster.

michaelwoerister · michaelwoerister · commit 53c2f447ffcb · 2018-01-09T16:53:35.000+01:00
diff --git a/src/libserialize/leb128.rs b/src/libserialize/leb128.rs
@@ -9,64 +9,94 @@
 // except according to those terms.
 
 #[inline]
-fn write_to_vec(vec: &mut Vec<u8>, position: usize, byte: u8) {
+pub fn write_to_vec(vec: &mut Vec<u8>, position: usize, byte: u8) {
     if position == vec.len() {
         vec.push(byte);
     } else {
         vec[position] = byte;
     }
 }
 
-#[inline]
-/// encodes an integer using unsigned leb128 encoding and stores
-/// the result using a callback function.
-///
-/// The callback `write` is called once for each position
-/// that is to be written to with the byte to be encoded
-/// at that position.
-pub fn write_unsigned_leb128_to<W>(mut value: u128, mut write: W) -> usize
-    where W: FnMut(usize, u8)
-{
-    let mut position = 0;
-    loop {
-        let mut byte = (value & 0x7F) as u8;
-        value >>= 7;
-        if value != 0 {
-            byte |= 0x80;
-        }
-
-        write(position, byte);
-        position += 1;
+#[cfg(target_pointer_width = "32")]
+const USIZE_LEB128_SIZE: usize = 5;
+#[cfg(target_pointer_width = "64")]
+const USIZE_LEB128_SIZE: usize = 10;
+
+macro_rules! leb128_size {
+    (u16) => (3);
+    (u32) => (5);
+    (u64) => (10);
+    (u128) => (19);
+    (usize) => (USIZE_LEB128_SIZE);
+}
 
-        if value == 0 {
-            break;
+macro_rules! impl_write_unsigned_leb128 {
+    ($fn_name:ident, $int_ty:ident) => (
+        #[inline]
+        pub fn $fn_name(out: &mut Vec<u8>, start_position: usize, mut value: $int_ty) -> usize {
+            let mut position = start_position;
+            for _ in 0 .. leb128_size!($int_ty) {
+                let mut byte = (value & 0x7F) as u8;
+                value >>= 7;
+                if value != 0 {
+                    byte |= 0x80;
+                }
+
+                write_to_vec(out, position, byte);
+                position += 1;
+
+                if value == 0 {
+                    break;
+                }
+            }
+
+            position - start_position
         }
-    }
-
-    position
+    )
 }
 
-pub fn write_unsigned_leb128(out: &mut Vec<u8>, start_position: usize, value: u128) -> usize {
-    write_unsigned_leb128_to(value, |i, v| write_to_vec(out, start_position+i, v))
+impl_write_unsigned_leb128!(write_u16_leb128, u16);
+impl_write_unsigned_leb128!(write_u32_leb128, u32);
+impl_write_unsigned_leb128!(write_u64_leb128, u64);
+impl_write_unsigned_leb128!(write_u128_leb128, u128);
+impl_write_unsigned_leb128!(write_usize_leb128, usize);
+
+
+macro_rules! impl_read_unsigned_leb128 {
+    ($fn_name:ident, $int_ty:ident) => (
+        #[inline]
+        pub fn $fn_name(slice: &[u8]) -> ($int_ty, usize) {
+            let mut result: $int_ty = 0;
+            let mut shift = 0;
+            let mut position = 0;
+
+            for _ in 0 .. leb128_size!($int_ty) {
+                let byte = unsafe {
+                    *slice.get_unchecked(position)
+                };
+                position += 1;
+                result |= ((byte & 0x7F) as $int_ty) << shift;
+                if (byte & 0x80) == 0 {
+                    break;
+                }
+                shift += 7;
+            }
+
+            // Do a single bounds check at the end instead of for every byte.
+            assert!(position <= slice.len());
+
+            (result, position)
+        }
+    )
 }
 
-#[inline]
-pub fn read_unsigned_leb128(data: &[u8], start_position: usize) -> (u128, usize) {
-    let mut result = 0;
-    let mut shift = 0;
-    let mut position = start_position;
-    loop {
-        let byte = data[position];
-        position += 1;
-        result |= ((byte & 0x7F) as u128) << shift;
-        if (byte & 0x80) == 0 {
-            break;
-        }
-        shift += 7;
-    }
+impl_read_unsigned_leb128!(read_u16_leb128, u16);
+impl_read_unsigned_leb128!(read_u32_leb128, u32);
+impl_read_unsigned_leb128!(read_u64_leb128, u64);
+impl_read_unsigned_leb128!(read_u128_leb128, u128);
+impl_read_unsigned_leb128!(read_usize_leb128, usize);
+
 
-    (result, position - start_position)
-}
 
 #[inline]
 /// encodes an integer using signed leb128 encoding and stores
@@ -130,26 +160,36 @@ pub fn read_signed_leb128(data: &[u8], start_position: usize) -> (i128, usize) {
     (result, position - start_position)
 }
 
-#[test]
-fn test_unsigned_leb128() {
-    let mut stream = Vec::with_capacity(10000);
-
-    for x in 0..62 {
-        let pos = stream.len();
-        let bytes_written = write_unsigned_leb128(&mut stream, pos, 3 << x);
-        assert_eq!(stream.len(), pos + bytes_written);
-    }
-
-    let mut position = 0;
-    for x in 0..62 {
-        let expected = 3 << x;
-        let (actual, bytes_read) = read_unsigned_leb128(&stream, position);
-        assert_eq!(expected, actual);
-        position += bytes_read;
-    }
-    assert_eq!(stream.len(), position);
+macro_rules! impl_test_unsigned_leb128 {
+    ($test_name:ident, $write_fn_name:ident, $read_fn_name:ident, $int_ty:ident) => (
+        #[test]
+        fn $test_name() {
+            let mut stream = Vec::new();
+
+            for x in 0..62 {
+                let pos = stream.len();
+                let bytes_written = $write_fn_name(&mut stream, pos, (3u64 << x) as $int_ty);
+                assert_eq!(stream.len(), pos + bytes_written);
+            }
+
+            let mut position = 0;
+            for x in 0..62 {
+                let expected = (3u64 << x) as $int_ty;
+                let (actual, bytes_read) = $read_fn_name(&stream[position ..]);
+                assert_eq!(expected, actual);
+                position += bytes_read;
+            }
+            assert_eq!(stream.len(), position);
+        }
+    )
 }
 
+impl_test_unsigned_leb128!(test_u16_leb128, write_u16_leb128, read_u16_leb128, u16);
+impl_test_unsigned_leb128!(test_u32_leb128, write_u32_leb128, read_u32_leb128, u32);
+impl_test_unsigned_leb128!(test_u64_leb128, write_u64_leb128, read_u64_leb128, u64);
+impl_test_unsigned_leb128!(test_u128_leb128, write_u128_leb128, read_u128_leb128, u128);
+impl_test_unsigned_leb128!(test_usize_leb128, write_usize_leb128, read_usize_leb128, usize);
+
 #[test]
 fn test_signed_leb128() {
     let values: Vec<_> = (-500..500).map(|i| i * 0x12345789ABCDEF).collect();
diff --git a/src/libserialize/opaque.rs b/src/libserialize/opaque.rs
@@ -8,7 +8,7 @@
 // option. This file may not be copied, modified, or distributed
 // except according to those terms.
 
-use leb128::{read_signed_leb128, read_unsigned_leb128, write_signed_leb128, write_unsigned_leb128};
+use leb128::{self, read_signed_leb128, write_signed_leb128};
 use std::borrow::Cow;
 use std::io::{self, Write};
 use serialize;
@@ -31,9 +31,9 @@ impl<'a> Encoder<'a> {
 
 
 macro_rules! write_uleb128 {
-    ($enc:expr, $value:expr) => {{
+    ($enc:expr, $value:expr, $fun:ident) => {{
         let pos = $enc.cursor.position() as usize;
-        let bytes_written = write_unsigned_leb128($enc.cursor.get_mut(), pos, $value as u128);
+        let bytes_written = leb128::$fun($enc.cursor.get_mut(), pos, $value);
         $enc.cursor.set_position((pos + bytes_written) as u64);
         Ok(())
     }}
@@ -51,61 +51,76 @@ macro_rules! write_sleb128 {
 impl<'a> serialize::Encoder for Encoder<'a> {
     type Error = io::Error;
 
+    #[inline]
     fn emit_nil(&mut self) -> EncodeResult {
         Ok(())
     }
 
+    #[inline]
     fn emit_usize(&mut self, v: usize) -> EncodeResult {
-        write_uleb128!(self, v)
+        write_uleb128!(self, v, write_usize_leb128)
     }
 
+    #[inline]
     fn emit_u128(&mut self, v: u128) -> EncodeResult {
-        write_uleb128!(self, v)
+        write_uleb128!(self, v, write_u128_leb128)
     }
 
+    #[inline]
     fn emit_u64(&mut self, v: u64) -> EncodeResult {
-        write_uleb128!(self, v)
+        write_uleb128!(self, v, write_u64_leb128)
     }
 
+    #[inline]
     fn emit_u32(&mut self, v: u32) -> EncodeResult {
-        write_uleb128!(self, v)
+        write_uleb128!(self, v, write_u32_leb128)
     }
 
+    #[inline]
     fn emit_u16(&mut self, v: u16) -> EncodeResult {
-        write_uleb128!(self, v)
+        write_uleb128!(self, v, write_u16_leb128)
     }
 
+    #[inline]
     fn emit_u8(&mut self, v: u8) -> EncodeResult {
-        let _ = self.cursor.write_all(&[v]);
+        let pos = self.cursor.position() as usize;
+        leb128::write_to_vec(self.cursor.get_mut(), pos, v);
+        self.cursor.set_position((pos + 1) as u64);
         Ok(())
     }
 
+    #[inline]
     fn emit_isize(&mut self, v: isize) -> EncodeResult {
         write_sleb128!(self, v)
     }
 
+    #[inline]
     fn emit_i128(&mut self, v: i128) -> EncodeResult {
         write_sleb128!(self, v)
     }
 
+    #[inline]
     fn emit_i64(&mut self, v: i64) -> EncodeResult {
         write_sleb128!(self, v)
     }
 
+    #[inline]
     fn emit_i32(&mut self, v: i32) -> EncodeResult {
         write_sleb128!(self, v)
     }
 
+    #[inline]
     fn emit_i16(&mut self, v: i16) -> EncodeResult {
         write_sleb128!(self, v)
     }
 
+    #[inline]
     fn emit_i8(&mut self, v: i8) -> EncodeResult {
         let as_u8: u8 = unsafe { ::std::mem::transmute(v) };
-        let _ = self.cursor.write_all(&[as_u8]);
-        Ok(())
+        self.emit_u8(as_u8)
     }
 
+    #[inline]
     fn emit_bool(&mut self, v: bool) -> EncodeResult {
         self.emit_u8(if v {
             1
@@ -114,20 +129,24 @@ impl<'a> serialize::Encoder for Encoder<'a> {
         })
     }
 
+    #[inline]
     fn emit_f64(&mut self, v: f64) -> EncodeResult {
         let as_u64: u64 = unsafe { ::std::mem::transmute(v) };
         self.emit_u64(as_u64)
     }
 
+    #[inline]
     fn emit_f32(&mut self, v: f32) -> EncodeResult {
         let as_u32: u32 = unsafe { ::std::mem::transmute(v) };
         self.emit_u32(as_u32)
     }
 
+    #[inline]
     fn emit_char(&mut self, v: char) -> EncodeResult {
         self.emit_u32(v as u32)
     }
 
+    #[inline]
     fn emit_str(&mut self, v: &str) -> EncodeResult {
         self.emit_usize(v.len())?;
         let _ = self.cursor.write_all(v.as_bytes());
@@ -136,6 +155,7 @@ impl<'a> serialize::Encoder for Encoder<'a> {
 }
 
 impl<'a> Encoder<'a> {
+    #[inline]
     pub fn position(&self) -> usize {
         self.cursor.position() as usize
     }
@@ -158,24 +178,27 @@ impl<'a> Decoder<'a> {
         }
     }
 
+    #[inline]
     pub fn position(&self) -> usize {
         self.position
     }
 
+    #[inline]
     pub fn set_position(&mut self, pos: usize) {
         self.position = pos
     }
 
+    #[inline]
     pub fn advance(&mut self, bytes: usize) {
         self.position += bytes;
     }
 }
 
 macro_rules! read_uleb128 {
-    ($dec:expr, $t:ty) => ({
-        let (value, bytes_read) = read_unsigned_leb128($dec.data, $dec.position);
+    ($dec:expr, $t:ty, $fun:ident) => ({
+        let (value, bytes_read) = leb128::$fun(&$dec.data[$dec.position ..]);
         $dec.position += bytes_read;
-        Ok(value as $t)
+        Ok(value)
     })
 }
 
@@ -198,22 +221,22 @@ impl<'a> serialize::Decoder for Decoder<'a> {
 
     #[inline]
     fn read_u128(&mut self) -> Result<u128, Self::Error> {
-        read_uleb128!(self, u128)
+        read_uleb128!(self, u128, read_u128_leb128)
     }
 
     #[inline]
     fn read_u64(&mut self) -> Result<u64, Self::Error> {
-        read_uleb128!(self, u64)
+        read_uleb128!(self, u64, read_u64_leb128)
     }
 
     #[inline]
     fn read_u32(&mut self) -> Result<u32, Self::Error> {
-        read_uleb128!(self, u32)
+        read_uleb128!(self, u32, read_u32_leb128)
     }
 
     #[inline]
     fn read_u16(&mut self) -> Result<u16, Self::Error> {
-        read_uleb128!(self, u16)
+        read_uleb128!(self, u16, read_u16_leb128)
     }
 
     #[inline]
@@ -225,7 +248,7 @@ impl<'a> serialize::Decoder for Decoder<'a> {
 
     #[inline]
     fn read_usize(&mut self) -> Result<usize, Self::Error> {
-        read_uleb128!(self, usize)
+        read_uleb128!(self, usize, read_usize_leb128)
     }
 
     #[inline]

Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,7 @@`
`8`	`8`	`// option. This file may not be copied, modified, or distributed`
`9`	`9`	`// except according to those terms.`
`10`	`10`
`11`		`-use leb128::{read_signed_leb128, read_unsigned_leb128, write_signed_leb128, write_unsigned_leb128};`
	`11`	`+use leb128::{self, read_signed_leb128, write_signed_leb128};`
`12`	`12`	`use std::borrow::Cow;`
`13`	`13`	`use std::io::{self, Write};`
`14`	`14`	`use serialize;`
`@@ -31,9 +31,9 @@ impl<'a> Encoder<'a> {`
`31`	`31`
`32`	`32`
`33`	`33`	`macro_rules! write_uleb128 {`
`34`		`- ($enc:expr, $value:expr) => {{`
	`34`	`+ ($enc:expr, $value:expr, $fun:ident) => {{`
`35`	`35`	`let pos = $enc.cursor.position() as usize;`
`36`		`- let bytes_written = write_unsigned_leb128($enc.cursor.get_mut(), pos, $value as u128);`
	`36`	`+ let bytes_written = leb128::$fun($enc.cursor.get_mut(), pos, $value);`
`37`	`37`	`$enc.cursor.set_position((pos + bytes_written) as u64);`
`38`	`38`	`Ok(())`
`39`	`39`	`}}`
`@@ -51,61 +51,76 @@ macro_rules! write_sleb128 {`
`51`	`51`	`impl<'a> serialize::Encoder for Encoder<'a> {`
`52`	`52`	`type Error = io::Error;`
`53`	`53`
	`54`	`+ #[inline]`
`54`	`55`	`fn emit_nil(&mut self) -> EncodeResult {`
`55`	`56`	`Ok(())`
`56`	`57`	`}`
`57`	`58`
	`59`	`+ #[inline]`
`58`	`60`	`fn emit_usize(&mut self, v: usize) -> EncodeResult {`
`59`		`- write_uleb128!(self, v)`
	`61`	`+ write_uleb128!(self, v, write_usize_leb128)`
`60`	`62`	`}`
`61`	`63`
	`64`	`+ #[inline]`
`62`	`65`	`fn emit_u128(&mut self, v: u128) -> EncodeResult {`
`63`		`- write_uleb128!(self, v)`
	`66`	`+ write_uleb128!(self, v, write_u128_leb128)`
`64`	`67`	`}`
`65`	`68`
	`69`	`+ #[inline]`
`66`	`70`	`fn emit_u64(&mut self, v: u64) -> EncodeResult {`
`67`		`- write_uleb128!(self, v)`
	`71`	`+ write_uleb128!(self, v, write_u64_leb128)`
`68`	`72`	`}`
`69`	`73`
	`74`	`+ #[inline]`
`70`	`75`	`fn emit_u32(&mut self, v: u32) -> EncodeResult {`
`71`		`- write_uleb128!(self, v)`
	`76`	`+ write_uleb128!(self, v, write_u32_leb128)`
`72`	`77`	`}`
`73`	`78`
	`79`	`+ #[inline]`
`74`	`80`	`fn emit_u16(&mut self, v: u16) -> EncodeResult {`
`75`		`- write_uleb128!(self, v)`
	`81`	`+ write_uleb128!(self, v, write_u16_leb128)`
`76`	`82`	`}`
`77`	`83`
	`84`	`+ #[inline]`
`78`	`85`	`fn emit_u8(&mut self, v: u8) -> EncodeResult {`
`79`		`- let _ = self.cursor.write_all(&[v]);`
	`86`	`+ let pos = self.cursor.position() as usize;`
	`87`	`+ leb128::write_to_vec(self.cursor.get_mut(), pos, v);`
	`88`	`+ self.cursor.set_position((pos + 1) as u64);`
`80`	`89`	`Ok(())`
`81`	`90`	`}`
`82`	`91`
	`92`	`+ #[inline]`
`83`	`93`	`fn emit_isize(&mut self, v: isize) -> EncodeResult {`
`84`	`94`	`write_sleb128!(self, v)`
`85`	`95`	`}`
`86`	`96`
	`97`	`+ #[inline]`
`87`	`98`	`fn emit_i128(&mut self, v: i128) -> EncodeResult {`
`88`	`99`	`write_sleb128!(self, v)`
`89`	`100`	`}`
`90`	`101`
	`102`	`+ #[inline]`
`91`	`103`	`fn emit_i64(&mut self, v: i64) -> EncodeResult {`
`92`	`104`	`write_sleb128!(self, v)`
`93`	`105`	`}`
`94`	`106`
	`107`	`+ #[inline]`
`95`	`108`	`fn emit_i32(&mut self, v: i32) -> EncodeResult {`
`96`	`109`	`write_sleb128!(self, v)`
`97`	`110`	`}`
`98`	`111`
	`112`	`+ #[inline]`
`99`	`113`	`fn emit_i16(&mut self, v: i16) -> EncodeResult {`
`100`	`114`	`write_sleb128!(self, v)`
`101`	`115`	`}`
`102`	`116`
	`117`	`+ #[inline]`
`103`	`118`	`fn emit_i8(&mut self, v: i8) -> EncodeResult {`
`104`	`119`	`let as_u8: u8 = unsafe { ::std::mem::transmute(v) };`
`105`		`- let _ = self.cursor.write_all(&[as_u8]);`
`106`		`- Ok(())`
	`120`	`+ self.emit_u8(as_u8)`
`107`	`121`	`}`
`108`	`122`
	`123`	`+ #[inline]`
`109`	`124`	`fn emit_bool(&mut self, v: bool) -> EncodeResult {`
`110`	`125`	`self.emit_u8(if v {`
`111`	`126`	`1`
`@@ -114,20 +129,24 @@ impl<'a> serialize::Encoder for Encoder<'a> {`
`114`	`129`	`})`
`115`	`130`	`}`
`116`	`131`
	`132`	`+ #[inline]`
`117`	`133`	`fn emit_f64(&mut self, v: f64) -> EncodeResult {`
`118`	`134`	`let as_u64: u64 = unsafe { ::std::mem::transmute(v) };`
`119`	`135`	`self.emit_u64(as_u64)`
`120`	`136`	`}`
`121`	`137`
	`138`	`+ #[inline]`
`122`	`139`	`fn emit_f32(&mut self, v: f32) -> EncodeResult {`
`123`	`140`	`let as_u32: u32 = unsafe { ::std::mem::transmute(v) };`
`124`	`141`	`self.emit_u32(as_u32)`
`125`	`142`	`}`
`126`	`143`
	`144`	`+ #[inline]`
`127`	`145`	`fn emit_char(&mut self, v: char) -> EncodeResult {`
`128`	`146`	`self.emit_u32(v as u32)`
`129`	`147`	`}`
`130`	`148`
	`149`	`+ #[inline]`
`131`	`150`	`fn emit_str(&mut self, v: &str) -> EncodeResult {`
`132`	`151`	`self.emit_usize(v.len())?;`
`133`	`152`	`let _ = self.cursor.write_all(v.as_bytes());`
`@@ -136,6 +155,7 @@ impl<'a> serialize::Encoder for Encoder<'a> {`
`136`	`155`	`}`
`137`	`156`
`138`	`157`	`impl<'a> Encoder<'a> {`
	`158`	`+ #[inline]`
`139`	`159`	`pub fn position(&self) -> usize {`
`140`	`160`	`self.cursor.position() as usize`
`141`	`161`	`}`
`@@ -158,24 +178,27 @@ impl<'a> Decoder<'a> {`
`158`	`178`	`}`
`159`	`179`	`}`
`160`	`180`
	`181`	`+ #[inline]`
`161`	`182`	`pub fn position(&self) -> usize {`
`162`	`183`	`self.position`
`163`	`184`	`}`
`164`	`185`
	`186`	`+ #[inline]`
`165`	`187`	`pub fn set_position(&mut self, pos: usize) {`
`166`	`188`	`self.position = pos`
`167`	`189`	`}`
`168`	`190`
	`191`	`+ #[inline]`
`169`	`192`	`pub fn advance(&mut self, bytes: usize) {`
`170`	`193`	`self.position += bytes;`
`171`	`194`	`}`
`172`	`195`	`}`
`173`	`196`
`174`	`197`	`macro_rules! read_uleb128 {`
`175`		`- ($dec:expr, $t:ty) => ({`
`176`		`- let (value, bytes_read) = read_unsigned_leb128($dec.data, $dec.position);`
	`198`	`+ ($dec:expr, $t:ty, $fun:ident) => ({`
	`199`	`+ let (value, bytes_read) = leb128::$fun(&$dec.data[$dec.position ..]);`
`177`	`200`	`$dec.position += bytes_read;`
`178`		`- Ok(value as $t)`
	`201`	`+ Ok(value)`
`179`	`202`	`})`
`180`	`203`	`}`
`181`	`204`
`@@ -198,22 +221,22 @@ impl<'a> serialize::Decoder for Decoder<'a> {`
`198`	`221`
`199`	`222`	`#[inline]`
`200`	`223`	`fn read_u128(&mut self) -> Result<u128, Self::Error> {`
`201`		`- read_uleb128!(self, u128)`
	`224`	`+ read_uleb128!(self, u128, read_u128_leb128)`
`202`	`225`	`}`
`203`	`226`
`204`	`227`	`#[inline]`
`205`	`228`	`fn read_u64(&mut self) -> Result<u64, Self::Error> {`
`206`		`- read_uleb128!(self, u64)`
	`229`	`+ read_uleb128!(self, u64, read_u64_leb128)`
`207`	`230`	`}`
`208`	`231`
`209`	`232`	`#[inline]`
`210`	`233`	`fn read_u32(&mut self) -> Result<u32, Self::Error> {`
`211`		`- read_uleb128!(self, u32)`
	`234`	`+ read_uleb128!(self, u32, read_u32_leb128)`
`212`	`235`	`}`
`213`	`236`
`214`	`237`	`#[inline]`
`215`	`238`	`fn read_u16(&mut self) -> Result<u16, Self::Error> {`
`216`		`- read_uleb128!(self, u16)`
	`239`	`+ read_uleb128!(self, u16, read_u16_leb128)`
`217`	`240`	`}`
`218`	`241`
`219`	`242`	`#[inline]`
`@@ -225,7 +248,7 @@ impl<'a> serialize::Decoder for Decoder<'a> {`
`225`	`248`
`226`	`249`	`#[inline]`
`227`	`250`	`fn read_usize(&mut self) -> Result<usize, Self::Error> {`
`228`		`- read_uleb128!(self, usize)`
	`251`	`+ read_uleb128!(self, usize, read_usize_leb128)`
`229`	`252`	`}`
`230`	`253`
`231`	`254`	`#[inline]`