adding benchmarking test and fixed some compilation issues

Jolanrensen · Jolanrensen · commit 920c1a06168d · 2024-10-15T14:26:44.000+02:00
diff --git a/core/src/test/kotlin/org/jetbrains/kotlinx/dataframe/io/DoubleParserTests.kt b/core/src/test/kotlin/org/jetbrains/kotlinx/dataframe/io/DoubleParserTests.kt
@@ -120,6 +120,7 @@ class DoubleParserTests {
             "100123.35",
             "-204,235.23",
             "1.234e3",
+            "3e-04", // failed with old double parser
         )
 
         val expectedDoubles = listOf(
@@ -128,6 +129,7 @@ class DoubleParserTests {
             100_123.35,
             -204_235.23,
             1.234e3,
+            3e-04,
         )
 
         // CharSequence
diff --git a/dataframe-csv/build.gradle.kts b/dataframe-csv/build.gradle.kts
@@ -11,6 +11,7 @@ plugins {
         alias(ktlint)
         alias(jupyter.api)
         alias(docProcessor)
+        alias(kotlinx.benchmark)
     }
     idea
 }
@@ -39,12 +40,19 @@ dependencies {
     implementation(libs.kotlin.coroutinesCore)
 
     testApi(project(":core"))
+    testImplementation(libs.kotlinx.benchmark.runtime)
     testImplementation(libs.junit)
     testImplementation(libs.kotestAssertions) {
         exclude("org.jetbrains.kotlin", "kotlin-stdlib-jdk8")
     }
 }
 
+benchmark {
+    targets {
+        register("test")
+    }
+}
+
 val generatedSourcesFolderName = "generated-sources"
 
 // Backup the kotlin source files location
@@ -155,7 +163,6 @@ kotlin {
     explicitApi()
     sourceSets.all {
         languageSettings {
-            enableLanguageFeature("ExplicitBackingFields")
         }
     }
 }
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/io/ListSink.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/io/ListSink.kt
@@ -66,9 +66,10 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour
         )
     }
 
-    @Suppress("MUST_BE_INITIALIZED_OR_BE_ABSTRACT", "EXPLICIT_BACKING_FIELDS_UNSUPPORTED")
+    private val _data: MutableList<Any?> = mutableListOf()
+
     val data: List<Any?>
-        field = mutableListOf()
+        get() = _data
 
     var hasNulls: Boolean = false
         private set
@@ -121,13 +122,12 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour
         destEnd: Int,
         isNull: BooleanArray,
     ) {
-        data as MutableList<Any?>
         while (data.size < destBegin) {
-            data += null
+            _data += null
             hasNulls = true
         }
         for ((srcIndex, _) in (destBegin..<destEnd).withIndex()) {
-            data += getValue(src, srcIndex, isNull)
+            _data += getValue(src, srcIndex, isNull)
         }
     }
 
@@ -137,9 +137,8 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour
         destEnd: Int,
         isNull: BooleanArray,
     ) {
-        data as MutableList<Any?>
         for ((srcIndex, destIndex) in (destBegin..<destEnd).withIndex()) {
-            data[destIndex] = getValue(src, srcIndex, isNull)
+            _data[destIndex] = getValue(src, srcIndex, isNull)
         }
     }
 
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/csv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/csv.kt
@@ -1,7 +1,8 @@
+@file:JvmName("CsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import org.jetbrains.kotlinx.dataframe.DataFrame
-import org.jetbrains.kotlinx.dataframe.api.ParserOptions
 import org.jetbrains.kotlinx.dataframe.codeGen.AbstractDefaultReadMethod
 import org.jetbrains.kotlinx.dataframe.codeGen.DefaultReadDfMethod
 import org.jetbrains.kotlinx.dataframe.impl.io.DelimParams
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readCsv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readCsv.kt
@@ -1,3 +1,5 @@
+@file:JvmName("ReadCsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import io.deephaven.csv.CsvSpecs
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readDelim.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readDelim.kt
@@ -1,3 +1,5 @@
+@file:JvmName("ReadDelimDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import io.deephaven.csv.CsvSpecs
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readTsv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/readTsv.kt
@@ -1,3 +1,5 @@
+@file:JvmName("ReadTsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import io.deephaven.csv.CsvSpecs
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/tsv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/tsv.kt
@@ -1,3 +1,5 @@
+@file:JvmName("TsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import org.jetbrains.kotlinx.dataframe.DataFrame
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/writeCsv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/writeCsv.kt
@@ -1,3 +1,5 @@
+@file:JvmName("WriteCsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import org.apache.commons.csv.CSVFormat
diff --git a/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/writeTsv.kt b/dataframe-csv/src/main/kotlin/org/jetbrains/kotlinx/dataframe/io/writeTsv.kt
@@ -1,3 +1,5 @@
+@file:JvmName("WriteTsvDeephavenKt")
+
 package org.jetbrains.kotlinx.dataframe.io
 
 import org.apache.commons.csv.CSVFormat
diff --git a/dataframe-csv/src/test/kotlin/org/jetbrains/kotlinx/dataframe/io/BenchmarkTest.kt b/dataframe-csv/src/test/kotlin/org/jetbrains/kotlinx/dataframe/io/BenchmarkTest.kt
@@ -0,0 +1,55 @@
+package org.jetbrains.kotlinx.dataframe.io
+
+import org.jetbrains.kotlinx.dataframe.DataFrame
+import org.openjdk.jmh.annotations.Benchmark
+import org.openjdk.jmh.annotations.BenchmarkMode
+import org.openjdk.jmh.annotations.Measurement
+import org.openjdk.jmh.annotations.Mode
+import org.openjdk.jmh.annotations.Param
+import org.openjdk.jmh.annotations.Scope
+import org.openjdk.jmh.annotations.Setup
+import org.openjdk.jmh.annotations.State
+import org.openjdk.jmh.annotations.TearDown
+import org.openjdk.jmh.annotations.Warmup
+import java.io.File
+import java.util.concurrent.TimeUnit
+
+@BenchmarkMode(Mode.SingleShotTime)
+@Warmup(iterations = 10, time = 5, timeUnit = TimeUnit.SECONDS)
+@Measurement(iterations = 20, timeUnit = TimeUnit.SECONDS)
+@State(Scope.Benchmark)
+open class BenchmarkTest {
+
+    @Param("small", "medium", "large")
+    var type = ""
+    var file: File? = null
+
+    @Setup
+    fun setup() {
+        System.setProperty("org.slf4j.simpleLogger.defaultLogLevel", "info")
+        file = File(
+            "src/test/resources/" + when (type) {
+                "small" -> "testCSV.csv"
+                "medium" -> "gross-domestic-product-june-2024-quarter.csv"
+                "large" -> "largeCsv.csv.gz"
+                else -> throw IllegalArgumentException("Invalid type")
+            },
+        )
+    }
+
+    @TearDown
+    fun tearDown() {
+        file = null
+    }
+
+    @Benchmark
+    fun apache() {
+        DataFrame.readCSV(file!!)
+    }
+
+    @OptIn(ExperimentalCsv::class)
+    @Benchmark
+    fun deephaven() {
+        DataFrame.readCsv(file!!)
+    }
+}
diff --git a/dataframe-csv/src/test/resources/gross-domestic-product-june-2024-quarter.csv b/dataframe-csv/src/test/resources/gross-domestic-product-june-2024-quarter.csv
diff --git a/dataframe-csv/src/test/resources/largeCsv.csv.gz b/dataframe-csv/src/test/resources/largeCsv.csv.gz
diff --git a/gradle/libs.versions.toml b/gradle/libs.versions.toml

Original file line number	Diff line number	Diff line change
`@@ -120,6 +120,7 @@ class DoubleParserTests {`
`120`	`120`	`"100123.35",`
`121`	`121`	`"-204,235.23",`
`122`	`122`	`"1.234e3",`
	`123`	`+ "3e-04", // failed with old double parser`
`123`	`124`	`)`
`124`	`125`
`125`	`126`	`val expectedDoubles = listOf(`
`@@ -128,6 +129,7 @@ class DoubleParserTests {`
`128`	`129`	`100_123.35,`
`129`	`130`	`-204_235.23,`
`130`	`131`	`1.234e3,`
	`132`	`+ 3e-04,`
`131`	`133`	`)`
`132`	`134`
`133`	`135`	`// CharSequence`
Original file line number	Diff line number	Diff line change
`@@ -11,6 +11,7 @@ plugins {`
`11`	`11`	`alias(ktlint)`
`12`	`12`	`alias(jupyter.api)`
`13`	`13`	`alias(docProcessor)`
	`14`	`+ alias(kotlinx.benchmark)`
`14`	`15`	`}`
`15`	`16`	`idea`
`16`	`17`	`}`
`@@ -39,12 +40,19 @@ dependencies {`
`39`	`40`	`implementation(libs.kotlin.coroutinesCore)`
`40`	`41`
`41`	`42`	`testApi(project(":core"))`
	`43`	`+ testImplementation(libs.kotlinx.benchmark.runtime)`
`42`	`44`	`testImplementation(libs.junit)`
`43`	`45`	`testImplementation(libs.kotestAssertions) {`
`44`	`46`	`exclude("org.jetbrains.kotlin", "kotlin-stdlib-jdk8")`
`45`	`47`	`}`
`46`	`48`	`}`
`47`	`49`
	`50`	`+benchmark {`
	`51`	`+ targets {`
	`52`	`+ register("test")`
	`53`	`+ }`
	`54`	`+}`
	`55`	`+`
`48`	`56`	`val generatedSourcesFolderName = "generated-sources"`
`49`	`57`
`50`	`58`	`// Backup the kotlin source files location`
`@@ -155,7 +163,6 @@ kotlin {`
`155`	`163`	`explicitApi()`
`156`	`164`	`sourceSets.all {`
`157`	`165`	`languageSettings {`
`158`		`- enableLanguageFeature("ExplicitBackingFields")`
`159`	`166`	`}`
`160`	`167`	`}`
`161`	`168`	`}`
Original file line number	Diff line number	Diff line change
`@@ -66,9 +66,10 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour`
`66`	`66`	`)`
`67`	`67`	`}`
`68`	`68`
`69`		`- @Suppress("MUST_BE_INITIALIZED_OR_BE_ABSTRACT", "EXPLICIT_BACKING_FIELDS_UNSUPPORTED")`
	`69`	`+ private val _data: MutableList<Any?> = mutableListOf()`
	`70`	`+`
`70`	`71`	`val data: List<Any?>`
`71`		`- field = mutableListOf()`
	`72`	`+ get() = _data`
`72`	`73`
`73`	`74`	`var hasNulls: Boolean = false`
`74`	`75`	`private set`
`@@ -121,13 +122,12 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour`
`121`	`122`	`destEnd: Int,`
`122`	`123`	`isNull: BooleanArray,`
`123`	`124`	`) {`
`124`		`- data as MutableList<Any?>`
`125`	`125`	`while (data.size < destBegin) {`
`126`		`- data += null`
	`126`	`+ _data += null`
`127`	`127`	`hasNulls = true`
`128`	`128`	`}`
`129`	`129`	`for ((srcIndex, _) in (destBegin..<destEnd).withIndex()) {`
`130`		`- data += getValue(src, srcIndex, isNull)`
	`130`	`+ _data += getValue(src, srcIndex, isNull)`
`131`	`131`	`}`
`132`	`132`	`}`
`133`	`133`
`@@ -137,9 +137,8 @@ internal class ListSink(val columnIndex: Int, val dataType: DataType) : SinkSour`
`137`	`137`	`destEnd: Int,`
`138`	`138`	`isNull: BooleanArray,`
`139`	`139`	`) {`
`140`		`- data as MutableList<Any?>`
`141`	`140`	`for ((srcIndex, destIndex) in (destBegin..<destEnd).withIndex()) {`
`142`		`- data[destIndex] = getValue(src, srcIndex, isNull)`
	`141`	`+ _data[destIndex] = getValue(src, srcIndex, isNull)`
`143`	`142`	`}`
`144`	`143`	`}`
`145`	`144`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("ReadCsvDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import io.deephaven.csv.CsvSpecs`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("ReadDelimDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import io.deephaven.csv.CsvSpecs`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("ReadTsvDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import io.deephaven.csv.CsvSpecs`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("TsvDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import org.jetbrains.kotlinx.dataframe.DataFrame`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("WriteCsvDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import org.apache.commons.csv.CSVFormat`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@file:JvmName("WriteTsvDeephavenKt")`
	`2`	`+`
`1`	`3`	`package org.jetbrains.kotlinx.dataframe.io`
`2`	`4`
`3`	`5`	`import org.apache.commons.csv.CSVFormat`