Fix embedded newline scanning

k0ekk0ek · k0ekk0ek · commit 36ac72611b4f · 2024-03-28T17:41:27.000+01:00
Fixes NLnetLabs#109.
diff --git a/include/zone.h b/include/zone.h
@@ -255,7 +255,7 @@ struct zone_file {
   // enough to hold every token for a single read + terminators
   struct { const char **head, **tail, *tape[ZONE_TAPE_SIZE + 2]; } fields;
   struct { const char **head, **tail, *tape[ZONE_TAPE_SIZE + 1]; } delimiters;
-  struct { uint16_t *head, *tail, tape[ZONE_TAPE_SIZE + 1]; } lines;
+  struct { uint16_t *head, *tail, tape[ZONE_TAPE_SIZE + 1]; } newlines;
 };
 
 typedef struct zone_parser zone_parser_t;
diff --git a/src/fallback/scanner.h b/src/fallback/scanner.h
@@ -42,14 +42,14 @@ static really_inline const char *scan_quoted(
       if ((parser->file->state.is_escaped = (++start == end)))
         break;
       assert(start < end);
-      *parser->file->lines.tail += (*start == '\n');
+      *parser->file->newlines.tail += (*start == '\n');
       start++;
     } else if (*start == '\"') {
       parser->file->state.in_quoted = 0;
       *parser->file->delimiters.tail++ = start;
       return ++start;
     } else {
-      *parser->file->lines.tail += (*start == '\n');
+      *parser->file->newlines.tail += (*start == '\n');
       start++;
     }
   }
@@ -72,7 +72,7 @@ static really_inline const char *scan_contiguous(
         if ((parser->file->state.is_escaped = (++start == end)))
           break;
         assert(start < end);
-        parser->file->lines.tail[0] += (*start == '\n');
+        parser->file->newlines.tail[0] += (*start == '\n');
       }
       start++;
     } else {
@@ -105,9 +105,9 @@ static really_inline void scan(
       *parser->file->fields.tail++ = start;
       start = scan_contiguous(parser, start, end);
     } else if (code == LINE_FEED) {
-      if (*parser->file->lines.tail) {
+      if (*parser->file->newlines.tail) {
         *parser->file->fields.tail++ = line_feed;
-        parser->file->lines.tail++;
+        parser->file->newlines.tail++;
       } else {
         *parser->file->fields.tail++ = start;
       }
diff --git a/src/generic/parser.h b/src/generic/parser.h
@@ -320,9 +320,9 @@ static really_inline int32_t advance(parser_t *parser)
   int32_t code;
 
   // save embedded line count (quoted or escaped newlines)
-  parser->file->lines.tape[0] = parser->file->lines.tail[0];
-  parser->file->lines.head = parser->file->lines.tape;
-  parser->file->lines.tail = parser->file->lines.tape;
+  parser->file->newlines.tape[0] = parser->file->newlines.tail[0];
+  parser->file->newlines.head = parser->file->newlines.tape;
+  parser->file->newlines.tail = parser->file->newlines.tape;
   // restore non-terminated token (partial quoted or contiguous)
   parser->file->fields.tape[0] = parser->file->fields.tail[1];
   parser->file->fields.head = parser->file->fields.tape;
@@ -436,7 +436,7 @@ static never_inline void maybe_take(parser_t *parser, token_t *token)
       return;
     } else if (token->code == LINE_FEED) {
       if (unlikely(token->data == line_feed))
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       parser->file->span++;
       parser->file->fields.head++;
       if (unlikely(parser->file->grouped))
@@ -493,7 +493,7 @@ static really_inline void take(parser_t *parser, token_t *token)
       return;
     } else if (token->code == LINE_FEED) {
       if (unlikely(token->data == line_feed))
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       parser->file->span++;
       parser->file->fields.head++;
       if (unlikely(parser->file->grouped))
@@ -606,7 +606,7 @@ static never_inline int32_t maybe_take_contiguous(
       parser->file->fields.head++;
     } else if (token->code == LINE_FEED) {
       if (token->data == line_feed)
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       parser->file->span++;
       if (!parser->file->grouped)
         SYNTAX_ERROR(parser, token, "Missing %s in %s", NAME(field), NAME(type));
@@ -707,7 +707,7 @@ static never_inline int32_t maybe_take_quoted(
       parser->file->fields.head++;
     } else if (token->code == LINE_FEED) {
       if (token->data == line_feed)
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       parser->file->span++;
       if (!parser->file->grouped)
         SYNTAX_ERROR(parser, token, "Missing %s in %s", NAME(field), NAME(type));
@@ -812,7 +812,7 @@ static never_inline int32_t maybe_take_contiguous_or_quoted(
       parser->file->fields.head++;
     } else if (token->code == LINE_FEED) {
       if (token->data == line_feed)
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       parser->file->span++;
       if (!parser->file->grouped)
         SYNTAX_ERROR(parser, token, "Missing %s in %s", NAME(field), NAME(type));
@@ -905,7 +905,7 @@ static never_inline int32_t maybe_take_delimiter(
   for (;;) {
     if (likely(token->code == LINE_FEED)) {
       if (unlikely(token->data == line_feed))
-        parser->file->span += *parser->file->lines.head++;
+        parser->file->span += *parser->file->newlines.head++;
       if (unlikely(parser->file->grouped)) {
         parser->file->span++;
         parser->file->fields.head++;
diff --git a/src/generic/scanner.h b/src/generic/scanner.h
@@ -209,44 +209,40 @@ static really_inline void write_indexes(parser_t *parser, const block_t *block,
   uint64_t delimiter_count = count_ones(delimiters);
   // bulk of the data are contiguous and quoted character strings. field and
   // delimiter counts are therefore (mostly) equal. select the greater number
-  // and write out indexes using a single loop, (hopefully) leveraging
-  // superscalar properties of modern CPUs
+  // and write out indexes in a single loop leveraging superscalar properties
+  // of modern CPUs
   uint64_t count = field_count;
   if (delimiter_count > field_count)
     count = delimiter_count;
 
-  uint64_t newline = block->newline;
-  const uint64_t in_string = block->contiguous | block->in_quoted;
-
   // take slow path if (escaped) newlines appear in contiguous or quoted
   // character strings. edge case, but must be supported and handled in the
   // scanner for ease of use and to accommodate for parallel processing in the
   // parser. escaped newlines may have been present in the last block
-  if (unlikely(parser->file->lines.tail[0] || (newline & in_string))) {
-    // FIXME: test logic properly, likely eligable for simplification
-    for (count=0; count < field_count; count++) {
-      const uint64_t field = -fields & fields;
-      if (field & newline) {
-        parser->file->lines.tail++;
-        parser->file->fields.tail[count] = line_feed;
-        newline &= -field;
+  uint64_t newlines = block->newline & (block->contiguous | block->in_quoted);
+
+  if (unlikely(*parser->file->newlines.tail || newlines)) {
+    for (uint64_t i=0; i < count; i++) {
+      const uint64_t field = fields & -fields;
+      const uint64_t delimiter = delimiters & -delimiters;
+      if (field & block->newline) {
+        *parser->file->newlines.tail += count_ones(newlines & (field - 1));
+        if (*parser->file->newlines.tail) {
+          parser->file->fields.tail[i] = line_feed;
+          parser->file->newlines.tail++;
+        } else {
+          parser->file->fields.tail[i] = base + trailing_zeroes(field);
+        }
+        newlines &= -field;
       } else {
-        // count newlines here so number of newlines remains correct if last
-        // token is start of contiguous or quoted and index must be reset
-        *parser->file->lines.tail += count_ones(newline & ~(-field));
-        parser->file->fields.tail[count] = base + trailing_zeroes(field);
-        newline &= -field;
+        parser->file->fields.tail[i] = base + trailing_zeroes(field);
       }
-      parser->file->delimiters.tail[count] = base + trailing_zeroes(delimiters);
-      fields = clear_lowest_bit(fields);
-      delimiters = clear_lowest_bit(delimiters);
-    }
-
-    for (; count < delimiter_count; count++) {
-      parser->file->delimiters.tail[count] = base + trailing_zeroes(delimiters);
-      delimiters = clear_lowest_bit(delimiters);
+      parser->file->delimiters.tail[i] = base + trailing_zeroes(delimiter);
+      fields &= ~field;
+      delimiters &= ~delimiter;
     }
 
+    *parser->file->newlines.tail += count_ones(newlines);
     parser->file->fields.tail += field_count;
     parser->file->delimiters.tail += delimiter_count;
   } else {
diff --git a/src/zone.c b/src/zone.c
@@ -260,8 +260,8 @@ static void initialize_file(
   file->fields.head = file->fields.tail = file->fields.tape;
   file->delimiters.tape[0] = NULL;
   file->delimiters.head = file->delimiters.tail = file->delimiters.tape;
-  file->lines.tape[0] = 0;
-  file->lines.head = file->lines.tail = file->lines.tape;
+  file->newlines.tape[0] = 0;
+  file->newlines.head = file->newlines.tail = file->newlines.tape;
 }
 
 nonnull_all
diff --git a/tests/syntax.c b/tests/syntax.c
@@ -71,11 +71,10 @@ static int32_t newline_test_accept_rr(
 /*!cmocka */
 void newlines(void **state)
 {
-#if 0
-  static const char embedded_lf_text[] =
+  static const char quoted_lf_text[] =
     PAD("1. TXT \"foo\nbar\n\"\n2. TXT \"foobar\"");
-  // >> do the same thing for contiguous
-#endif
+  static const char escaped_lf_text[] =
+    PAD("1. TXT foo\\\nbar\\\n\n2. TXT \"foobar\"");
   static const char grouped_lf_text[] =
     PAD("1. TXT (\nfoo\nbar\n)\n2. TXT \"foobar\"");
   static const char plain_lf_text[] =
@@ -88,9 +87,8 @@ void newlines(void **state)
   static const uint8_t origin[] = { 0 };
 
   static const struct newline_test tests[] = {
-#if 0
-    { embedded_lf_text, { 1, 4 } },
-#endif
+    { quoted_lf_text, { 1, 4 } },
+    { escaped_lf_text, { 1, 4 } },
     { grouped_lf_text, { 1, 5 } },
     { plain_lf_text, { 1, 2 } },
     { control_lf_text, { 2, 3 } },