splunk
diff --git a/‎.github/workflows/ci_build_test.yaml
+1-1 b/‎.github/workflows/ci_build_test.yaml
+1-1
diff --git a/‎README.md
+10 b/‎README.md
+10
diff --git a/‎ci/export_data.py
+12-20 b/‎ci/export_data.py
+12-20
diff --git a/‎ci/kafka_cluster_gen.py
+25-28 b/‎ci/kafka_cluster_gen.py
+25-28
diff --git a/‎ci/kafka_orca_gen.py
+25-26 b/‎ci/kafka_orca_gen.py
+25-26
@@ -72,6 +72,7 @@ jobs:
     needs:
       - build-unit-test
     strategy:
+      fail-fast: false
       matrix:
         include:
           - kafka_version: "1.1.1"
@@ -205,4 +206,3 @@ jobs:
           export PYTHONWARNINGS="ignore:Unverified HTTPS request"
           echo "Running functional tests....."
           python -m pytest --log-level=INFO
-
@@ -135,6 +135,9 @@ Use the below schema to configure Splunk Connect for Kafka
    "splunk.hec.ssl.trust.store.password": "<Java KeyStore password>"
    "kerberos.user.principal": "<The Kerberos user principal the connector may use to authenticate with Kerberos>",
    "kerberos.keytab.path": "<The path to the keytab file to use for authentication with Kerberos>"
+   "enable.timestamp.extraction": "<true|false>",
+   "timestamp.regex": "<regex for timestamp extraction>",
+   "timestamp.format": "<time-format for timestamp extraction>"
   }
 }
 ```
@@ -222,6 +225,13 @@ Use the below schema to configure Splunk Connect for Kafka
 | `key.converter.schema.registry.url` |  Schema Registry URL. | `""` |
 | `key.converter.schemas.enable` | For using protobuf format ,set the value of this field to `true` | `false` |
 
+### Timestamp extraction Parameters
+| Name              | Description                | Default Value  |
+|--------           |----------------------------|-----------------------|
+| `enable.timestamp.extraction` |  To enable timestamp extraction ,set the value of this field to `true`. <br/> **NOTE:** <br/> Applicable only if `splunk.hec.raw` is `false` | `false` |
+| `timestamp.regex` |  Regex for timestamp extraction. <br/> **NOTE:** <br/> Regex must have name captured group `"time"` For eg.: `\\\"time\\\":\\s*\\\"(?<time>.*?)\"` | `""` |
+| `timestamp.format` |  Time-format for timestamp extraction .<br/>For eg.: <br/>If timestamp is `1555209605000` , set `timestamp.format` to `"epoch"` format .<br/> If timestamp is `Jun 13 2010 23:11:52.454 UTC` , set `timestamp.format` to `"MMM dd yyyy HH:mm:ss.SSS zzz"` | `""` |
+
 ## Load balancing
 
 See [Splunk Docs](https://docs.splunk.com/Documentation/KafkaConnect/latest/User/LoadBalancing) for considerations when using load balancing in your deployment.
 
@@ -48,15 +48,14 @@ def _check_request_status(self, req_obj):
         returns True/False
         '''
         if not req_obj.ok:
-            raise Exception('status code: {0} \n details: {1}'.format(
-                str(req_obj.status_code), req_obj.text))
+            raise Exception(f'status code: {str(req_obj.status_code)} \n details: {req_obj.text}')
 
     def _check_source_connection(self):
         '''
         Check if a source server connection is accessible
         returns True/False
         '''
-        service_url = '{0}/services'.format(self.src_splunk_uri)
+        service_url = f'{self.src_splunk_uri}/services'
         logger.info('requesting: %s', service_url)
 
         res = self._requests_retry_session().get(
@@ -70,11 +69,10 @@ def _check_dest_connection(self):
         Check if a destination server connection is accessible by
         sending a test event returns True/False
         '''
-        dest_splunk_hec_url = '{0}/services/collector/event'.format(
-            self.dest_splunk_hec_uri)
+        dest_splunk_hec_url = f'{self.dest_splunk_hec_uri}/services/collector/event'
         logger.info('requesting: %s', dest_splunk_hec_url)
         headers = {
-            'Authorization': 'Splunk {token}'.format(token=self.dest_splunk_hec_token),
+            'Authorization': f'Splunk {self.dest_splunk_hec_token}',
             'Content-Type': 'application/json',
         }
         data = {
@@ -92,11 +90,10 @@ def _compose_search_query(self):
         returns job_str
         '''
         for idx, item in enumerate(self.src_source_types):
-            self.src_source_types[idx] = 'sourcetype="{0}"'.format(item)
+            self.src_source_types[idx] = f'sourcetype="{item}"'
 
         source_type_str = ' OR '.join(self.src_source_types)
-        job_str = 'search index="{index}" {source_type_search}'.format(
-            index=self.src_index, source_type_search=source_type_str)
+        job_str = f'search index="{self.src_index}" {source_type_str}'
 
         logger.info('job_str: %s', job_str)
 
@@ -111,8 +108,7 @@ def _collect_data(self, query, start_time, end_time):
         returns events
         '''
 
-        url = '{0}/services/search/jobs?output_mode=json'.format(
-            self.src_splunk_uri)
+        url = f'{self.src_splunk_uri}/services/search/jobs?output_mode=json'
         logger.info('requesting: %s', url)
         data = {
             'search': query,
@@ -139,8 +135,7 @@ def _wait_for_job_and__get_events(self, job_id):
         returns events
         '''
         events = []
-        job_url = '{0}/services/search/jobs/{1}?output_mode=json'.format(
-            self.src_splunk_uri, str(job_id))
+        job_url = f'{self.src_splunk_uri}/services/search/jobs/{str(job_id)}?output_mode=json'
         logger.info('requesting: %s', job_url)
 
         for _ in range(self.timeout):
@@ -157,7 +152,7 @@ def _wait_for_job_and__get_events(self, job_id):
                 events = self._get_events(job_id)
                 break
             if dispatch_state == 'FAILED':
-                raise Exception('Search job: {0} failed'.format(job_url))
+                raise Exception(f'Search job: {job_url} failed')
             time.sleep(1)
 
         return events
@@ -168,8 +163,7 @@ def _get_events(self, job_id):
         @param: job_id
         returns events
         '''
-        event_url = '{0}/services/search/jobs/{1}/events?output_mode=json'.format(
-            self.src_splunk_uri, str(job_id))
+        event_url = f'{self.src_splunk_uri}/services/search/jobs/{str(job_id)}/events?output_mode=json'
         logger.info('requesting: %s', event_url)
 
         event_job = self._requests_retry_session().get(
@@ -214,13 +208,11 @@ def _send_to_dest_thru_hec(self, events):
         hec_events = self._transform_results_to_hec_events(events)
         data = '\n'.join(json.dumps(event) for event in hec_events)
         headers = {
-            'Authorization': 'Splunk {token}'.format(
-                token=self.dest_splunk_hec_token),
+            'Authorization': f'Splunk {self.dest_splunk_hec_token}',
             'Content-Type': 'application/json',
         }
 
-        dest_splunk_hec_url = '{0}/services/collector/event'.format(
-            self.dest_splunk_hec_uri)
+        dest_splunk_hec_url = f'{self.dest_splunk_hec_uri}/services/collector/event'
         logger.info('sending %d events to : %s',
                     len(events), dest_splunk_hec_url)
 
 
@@ -18,7 +18,7 @@ def __init__(self, image, version='2', volumes=None):
             # 'ZOOKEEPER_myid=1',
             'ZOOKEEPER_initLimit=5',
             'ZOOKEEPER_syncLimit=2',
-            'ZOOKEEPER_dataDir={}/zookeeper'.format(self.DATA_DIR_ROOT),
+            f'ZOOKEEPER_dataDir={self.DATA_DIR_ROOT}/zookeeper',
             # 'ZOOKEEPER_servers=server.1=zookeeper1:2888:3888,server.2=zookeeper2:2888:3888,server.3=zookeeper3:2888:3888',
         ]
 
@@ -28,7 +28,7 @@ def __init__(self, image, version='2', volumes=None):
         self.broker_opts = [
             'KAFKA_listeners=PLAINTEXT://:9092',
             # 'KAFKA_advertised_listeners=PLAINTEXT://kafka1:9092',
-            'KAFKA_log_dirs={}/kafkadata'.format(self.DATA_DIR_ROOT),
+            f'KAFKA_log_dirs={self.DATA_DIR_ROOT}/kafkadata',
             # 'KAFKA_num_partitions=3',
             'KAFKA_delete_topic_enable=true',
             'KAFKA_auto_create_topics_enable=true',
@@ -40,7 +40,7 @@ def __init__(self, image, version='2', volumes=None):
 
     def bootstrap_servers(self):
         return ','.join(
-            '{prefix}{kid}:9092'.format(prefix=self.broker_prefix, kid=i + 1)
+            f'{self.broker_prefix}{i + 1}:9092'
             for i in xrange(self.num_of_broker))
 
     def gen(self):
@@ -54,7 +54,7 @@ def gen(self):
                 if lin != '\n':
                     yaml_lines[i] = '  ' + lin
 
-            yaml_lines.insert(0, 'version: \'{}\'\n'.format(self.version))
+            yaml_lines.insert(0, f'version: \'{self.version}\'\n')
             yaml_lines.insert(0, 'services:\n')
         return '\n'.join(yaml_lines)
 
@@ -69,31 +69,30 @@ def _do_gen_zk(self):
         self.zk_opts.insert(1, self._get_jvm_memory())
 
         def add_myid(service, service_idx):
-            myid = '    - ZOOKEEPER_myid={}'.format(service_idx)
+            myid = f'    - ZOOKEEPER_myid={service_idx}'
             service.append(myid)
             zk_servers = self._get_zk_servers(service_idx)
-            service.append('    - ZOOKEEPER_servers={}'.format(zk_servers))
+            service.append(f'    - ZOOKEEPER_servers={zk_servers}')
 
         return gen_services(
             self.num_of_zk, self.zk_prefix, self.image, [2181, 2888, 3888],
             self.zk_opts, [], [2181, 2888, 3888], self.volumes, add_myid)
 
     def _do_gen_broker(self):
         def add_advertise_name_and_id(service, service_idx):
-            adname = '    - KAFKA_advertised_listeners=PLAINTEXT://{}{}:9092'.format(
-                self.broker_prefix, service_idx)
+            adname = f'    - KAFKA_advertised_listeners=PLAINTEXT://{self.broker_prefix}{service_idx}:9092'
             service.append(adname)
-            bid = '    - KAFKA_broker_id={}'.format(service_idx - 1)
+            bid = f'    - KAFKA_broker_id={service_idx - 1}'
             service.append(bid)
 
         self.broker_opts.insert(0, 'RUN=kafka')
         self.broker_opts.insert(1, self._get_jvm_memory())
         self.broker_opts.append(
-            'KAFKA_num_partitions={}'.format(self.num_of_partition))
+            f'KAFKA_num_partitions={self.num_of_partition}')
         zk_connect = self._get_zk_connect_setting()
         self.broker_opts.append(
-            'KAFKA_zookeeper_connect={}'.format(zk_connect))
-        depends = ['{}{}'.format(self.zk_prefix, i)
+            f'KAFKA_zookeeper_connect={zk_connect}')
+        depends = [f'{self.zk_prefix}{i}'
                    for i in xrange(1, self.num_of_zk + 1)]
 
         return gen_services(
@@ -102,71 +101,69 @@ def add_advertise_name_and_id(service, service_idx):
             add_advertise_name_and_id)
 
     def _get_jvm_memory(self):
-        return 'KAFKA_HEAP_OPTS=-Xmx{} -Xms{}'.format(
-            self.max_jvm_memory, self.min_jvm_memory)
+        return f'KAFKA_HEAP_OPTS=-Xmx{self.max_jvm_memory} -Xms{self.min_jvm_memory}'
 
     def _get_zk_servers(self, cur_idx):
         zk_servers = []
         for i in xrange(1, self.num_of_zk + 1):
             if i != cur_idx:
-                hname = '{prefix}{kid}'.format(prefix=self.zk_prefix, kid=i)
+                hname = f'{self.zk_prefix}{i}'
             else:
                 hname = '0.0.0.0'
 
-            zk_server = 'server.{kid}={hname}:2888:3888'.format(
-                kid=i, hname=hname)
+            zk_server = f'server.{i}={hname}:2888:3888'
             zk_servers.append(zk_server)
         return ','.join(zk_servers)
 
     def _get_zk_connect_setting(self):
         zk_connect_settings = []
         for i in xrange(self.num_of_zk):
             zk_connect_settings.append(
-                '{prefix}{kid}:2181'.format(prefix=self.zk_prefix, kid=i + 1))
+                f'{self.zk_prefix}{i + 1}:2181')
         return ','.join(zk_connect_settings)
 
 
 def gen_services(num, prefix, image, ports, envs,
                  depends, exposed_ports, volumes, callback):
     services = []
     for i in xrange(1, num + 1):
-        name = '{}{}'.format(prefix, i)
+        name = f'{prefix}{i}'
         service = [
-            '{}:'.format(name),
-            '  image: {}'.format(image),
-            '  hostname: {}'.format(name),
-            '  container_name: {}'.format(name),
+            f'{name}:',
+            f'  image: {image}',
+            f'  hostname: {name}',
+            f'  container_name: {name}',
         ]
 
         # exposed ports
         if exposed_ports:
             service.append('  expose:')
             for port in exposed_ports:
-                service.append('    - "{}"'.format(port))
+                service.append(f'    - "{port}"')
 
         # ports
         if ports:
             service.append('  ports:')
             for port in ports:
-                service.append('    - "{}"'.format(port))
+                service.append(f'    - "{port}"')
 
         # depends
         if depends:
             service.append('  depends_on:')
             for dep in depends:
-                service.append('    - {}'.format(dep))
+                service.append(f'    - {dep}')
 
         # volumes
         if volumes:
             service.append('  volumes:')
             for vol in volumes:
-                service.append('    - {}'.format(vol))
+                service.append(f'    - {vol}')
 
         # envs
         if envs:
             service.append('  environment:')
             for env in envs:
-                service.append('    - {}'.format(env))
+                service.append(f'    - {env}')
 
         if callback is not None:
             callback(service, i)
 
@@ -38,14 +38,14 @@ def gen(self):
             num_of_host = self.num_of_gen / self.DATA_GEN_PER_HOST
 
         envs = [
-            'KAFKA_BOOTSTRAP_SERVERS={}'.format(self.bootstrap_servers),
-            'KAFKA_TOPIC={}'.format(self.topic),
-            'MESSAGE_COUNT={}'.format(self.total_messages),
-            'EPS={}'.format(self.eps),
-            'MESSAGE_SIZE={}'.format(self.message_size),
-            'JVM_MAX_HEAP=2G',
-            'JVM_MIN_HEAP=512M',
-            'KAFKA_DATA_GEN_SIZE={}'.format(data_gen_size),
+            f'KAFKA_BOOTSTRAP_SERVERS={self.bootstrap_servers}',
+            f'KAFKA_TOPIC={self.topic}',
+            f'MESSAGE_COUNT={self.total_messages}',
+            f'EPS={self.eps}',
+            f'MESSAGE_SIZE={self.message_size}',
+            f'JVM_MAX_HEAP=2G',
+            f'JVM_MIN_HEAP=512M',
+            f'KAFKA_DATA_GEN_SIZE={data_gen_size}',
         ]
         depends = gen_depends_from(self.bootstrap_servers)
         services = kcg.gen_services(
@@ -67,14 +67,13 @@ def __init__(self, image, bootstrap_servers):
         self.min_jvm_memory = '512M'
 
     def gen(self):
-        jvm_mem = 'KAFKA_HEAP_OPTS=-Xmx{} -Xms{}'.format(
-            self.max_jvm_memory, self.min_jvm_memory)
+        jvm_mem = f'KAFKA_HEAP_OPTS=-Xmx{self.max_jvm_memory} -Xms{self.min_jvm_memory}'
 
         envs = [
-            'KAFKA_BOOTSTRAP_SERVERS={}'.format(self.bootstrap_servers),
+            f'KAFKA_BOOTSTRAP_SERVERS={self.bootstrap_servers}',
             jvm_mem,
-            'KAFKA_CONNECT_LOGGING={}'.format(self.logging_level),
-            'KAFKA_CONNECT_BRANCH={}'.format(self.branch),
+            f'KAFKA_CONNECT_LOGGING={self.logging_level}',
+            f'KAFKA_CONNECT_BRANCH={self.branch}',
             # for proc monitor
             'SPLUNK_HOST=https://heclb1:8088',
             'SPLUNK_TOKEN=00000000-0000-0000-0000-000000000000',
@@ -105,18 +104,18 @@ def __init__(self, image, num_of_indexer, num_of_connect):
 
     def gen(self):
         envs = [
-            'INDEX_CLUSTER_SIZE={}'.format(self.num_of_indexer),
-            'KAFKA_CONNECT_HEC_MODE={}'.format(self.hec_mode.lower()),
-            'KAFKA_CONNECT_ACK_MODE={}'.format(self.ack_mode.lower()),
-            'KAFKA_CONNECT_TOPICS={}'.format(self.topic),
-            'KAFKA_CONNECT_LINE_BREAKER={}'.format(self.line_breaker),
-            'JVM_HEAP_SIZE={}'.format(self.jvm_size),
-            'KAFKA_CONNECT_BRANCH={}'.format(self.branch),
-            'CONNECT_PERF_METRIC_DEST_HEC={}'.format(self.metric_dest_hec_uri),
-            'CONNECT_PERF_METRIC_TOKEN={}'.format(self.metric_dest_hec_token),
+            f'INDEX_CLUSTER_SIZE={self.num_of_indexer}',
+            f'KAFKA_CONNECT_HEC_MODE={self.hec_mode.lower()}',
+            f'KAFKA_CONNECT_ACK_MODE={self.ack_mode.lower()}',
+            f'KAFKA_CONNECT_TOPICS={self.topic}',
+            f'KAFKA_CONNECT_LINE_BREAKER={self.line_breaker}',
+            f'JVM_HEAP_SIZE={self.jvm_size}',
+            f'KAFKA_CONNECT_BRANCH={self.branch}',
+            f'CONNECT_PERF_METRIC_DEST_HEC={self.metric_dest_hec_uri}',
+            f'CONNECT_PERF_METRIC_TOKEN={self.metric_dest_hec_token}',
         ]
 
-        depends = ['{}{}'.format(KafkaConnectYamlGen.prefix, i)
+        depends = [f'{KafkaConnectYamlGen.prefix}{i}'
                    for i in xrange(1, self.num_of_connect + 1)]
         services = kcg.gen_services(
             1, 'kafkabastion', self.image, [], envs, depends,
@@ -215,11 +214,11 @@ def _gen_orca_file(args, service_file):
         lines.append('[kafka-connect]')
         lines.append('hec_load_balancers = 1')
         lines.append('search_heads = 1')
-        lines.append('indexers = {}'.format(args.indexer_size))
+        lines.append(f'indexers = {args.indexer_size}')
         lines.append('log_token = 00000000-0000-0000-0000-000000000000')
         if args.perf == 1:
             lines.append('perf = true')
-        lines.append('services = {}'.format(service_file))
+        lines.append(f'services = {service_file}')
         f.write('\n'.join(lines))
 
     print 'finish generating orca.conf'
@@ -284,7 +283,7 @@ def main():
                         help='Splunk HEC destintion token')
 
 
-    volumes = '["{}"]'.format(kcg.KafkaClusterYamlGen.DATA_DIR_ROOT)
+    volumes = f'["{kcg.KafkaClusterYamlGen.DATA_DIR_ROOT}"]'
     parser.add_argument('--volumes', default=volumes, help='Volumes to mount')
 
     args = parser.parse_args()