records/120424_ValueEmbed/75a3af7b-f1a6-47dc-a989-d95e4419ff31.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 02:32:12 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             117W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             128W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31887ms step_avg:nanms
step:2/1530 train_loss:10.0659 train_time:31998ms step_avg:nanms
step:3/1530 train_loss:8.3701 train_time:32158ms step_avg:nanms
step:4/1530 train_loss:7.6351 train_time:32321ms step_avg:nanms
step:5/1530 train_loss:7.4663 train_time:32480ms step_avg:nanms
step:6/1530 train_loss:7.0036 train_time:32641ms step_avg:nanms
step:7/1530 train_loss:7.2106 train_time:32801ms step_avg:nanms
step:8/1530 train_loss:6.7408 train_time:32961ms step_avg:nanms
step:9/1530 train_loss:6.6228 train_time:33122ms step_avg:nanms
step:10/1530 train_loss:6.5036 train_time:33281ms step_avg:nanms
step:11/1530 train_loss:6.4316 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3387 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2473 train_time:435ms step_avg:145.09ms
step:14/1530 train_loss:6.2911 train_time:596ms step_avg:148.88ms
step:15/1530 train_loss:6.1838 train_time:756ms step_avg:151.18ms
step:16/1530 train_loss:6.1226 train_time:917ms step_avg:152.87ms
step:17/1530 train_loss:6.1706 train_time:1077ms step_avg:153.85ms
step:18/1530 train_loss:5.9935 train_time:1238ms step_avg:154.70ms
step:19/1530 train_loss:5.9957 train_time:1398ms step_avg:155.32ms
step:20/1530 train_loss:5.7063 train_time:1558ms step_avg:155.77ms
step:21/1530 train_loss:5.9577 train_time:1719ms step_avg:156.25ms
step:22/1530 train_loss:6.1666 train_time:1879ms step_avg:156.59ms
step:23/1530 train_loss:5.8527 train_time:2039ms step_avg:156.84ms
step:24/1530 train_loss:6.0269 train_time:2200ms step_avg:157.13ms
step:25/1530 train_loss:5.6834 train_time:2360ms step_avg:157.35ms
step:26/1530 train_loss:5.5982 train_time:2521ms step_avg:157.55ms
step:27/1530 train_loss:5.7523 train_time:2681ms step_avg:157.71ms
step:28/1530 train_loss:5.4174 train_time:2841ms step_avg:157.82ms
step:29/1530 train_loss:5.6727 train_time:3000ms step_avg:157.92ms
step:30/1530 train_loss:5.4735 train_time:3161ms step_avg:158.04ms
step:31/1530 train_loss:5.4294 train_time:3321ms step_avg:158.14ms
step:32/1530 train_loss:5.2855 train_time:3481ms step_avg:158.25ms
step:33/1530 train_loss:5.5829 train_time:3641ms step_avg:158.31ms
step:34/1530 train_loss:5.5077 train_time:3802ms step_avg:158.42ms
step:35/1530 train_loss:5.6070 train_time:3962ms step_avg:158.46ms
step:36/1530 train_loss:5.5333 train_time:4121ms step_avg:158.50ms
step:37/1530 train_loss:5.4493 train_time:4281ms step_avg:158.56ms
step:38/1530 train_loss:5.3193 train_time:4441ms step_avg:158.62ms
step:39/1530 train_loss:5.3190 train_time:4601ms step_avg:158.67ms
step:40/1530 train_loss:5.2459 train_time:4761ms step_avg:158.72ms
step:41/1530 train_loss:5.2215 train_time:4921ms step_avg:158.73ms
step:42/1530 train_loss:5.1662 train_time:5081ms step_avg:158.77ms
step:43/1530 train_loss:5.2722 train_time:5240ms step_avg:158.80ms
step:44/1530 train_loss:5.2583 train_time:5400ms step_avg:158.84ms
step:45/1530 train_loss:5.3915 train_time:5561ms step_avg:158.88ms
step:46/1530 train_loss:5.1646 train_time:5720ms step_avg:158.89ms
step:47/1530 train_loss:5.0571 train_time:5880ms step_avg:158.91ms
step:48/1530 train_loss:5.2098 train_time:6040ms step_avg:158.95ms
step:49/1530 train_loss:5.1370 train_time:6200ms step_avg:158.98ms
step:50/1530 train_loss:5.2510 train_time:6360ms step_avg:158.99ms
step:51/1530 train_loss:5.1463 train_time:6520ms step_avg:159.03ms
step:52/1530 train_loss:5.0478 train_time:6680ms step_avg:159.05ms
step:53/1530 train_loss:5.1640 train_time:6840ms step_avg:159.08ms
step:54/1530 train_loss:5.0188 train_time:7000ms step_avg:159.10ms
step:55/1530 train_loss:5.4206 train_time:7160ms step_avg:159.12ms
step:56/1530 train_loss:5.0310 train_time:7321ms step_avg:159.14ms
step:57/1530 train_loss:4.8848 train_time:7480ms step_avg:159.15ms
step:58/1530 train_loss:5.0469 train_time:7641ms step_avg:159.18ms
step:59/1530 train_loss:5.0186 train_time:7801ms step_avg:159.20ms
step:60/1530 train_loss:5.1343 train_time:7960ms step_avg:159.21ms
step:61/1530 train_loss:4.8472 train_time:8120ms step_avg:159.22ms
step:62/1530 train_loss:4.9734 train_time:8280ms step_avg:159.23ms
step:63/1530 train_loss:4.9649 train_time:8440ms step_avg:159.25ms
step:64/1530 train_loss:4.9477 train_time:8600ms step_avg:159.27ms
step:65/1530 train_loss:4.7876 train_time:8761ms step_avg:159.29ms
step:66/1530 train_loss:4.9162 train_time:8921ms step_avg:159.31ms
step:67/1530 train_loss:4.8282 train_time:9082ms step_avg:159.33ms
step:68/1530 train_loss:5.1051 train_time:9241ms step_avg:159.33ms
step:69/1530 train_loss:4.7295 train_time:9401ms step_avg:159.34ms
step:70/1530 train_loss:4.8575 train_time:9561ms step_avg:159.35ms
step:71/1530 train_loss:4.9787 train_time:9721ms step_avg:159.35ms
step:72/1530 train_loss:4.8895 train_time:9881ms step_avg:159.36ms
step:73/1530 train_loss:4.7688 train_time:10040ms step_avg:159.37ms
step:74/1530 train_loss:4.9256 train_time:10200ms step_avg:159.38ms
step:75/1530 train_loss:4.8684 train_time:10361ms step_avg:159.40ms
step:76/1530 train_loss:4.7979 train_time:10521ms step_avg:159.41ms
step:77/1530 train_loss:4.9198 train_time:10682ms step_avg:159.43ms
step:78/1530 train_loss:5.1339 train_time:10841ms step_avg:159.43ms
step:79/1530 train_loss:4.7995 train_time:11002ms step_avg:159.45ms
step:80/1530 train_loss:4.8562 train_time:11163ms step_avg:159.48ms
step:81/1530 train_loss:4.6492 train_time:11323ms step_avg:159.48ms
step:82/1530 train_loss:4.8252 train_time:11484ms step_avg:159.50ms
step:83/1530 train_loss:4.7886 train_time:11645ms step_avg:159.52ms
step:84/1530 train_loss:4.7746 train_time:11805ms step_avg:159.53ms
step:85/1530 train_loss:4.6292 train_time:11965ms step_avg:159.53ms
step:86/1530 train_loss:4.8513 train_time:12126ms step_avg:159.55ms
step:87/1530 train_loss:4.7454 train_time:12287ms step_avg:159.58ms
step:88/1530 train_loss:4.7540 train_time:12448ms step_avg:159.59ms
step:89/1530 train_loss:4.7191 train_time:12610ms step_avg:159.62ms
step:90/1530 train_loss:4.6791 train_time:12772ms step_avg:159.65ms
step:91/1530 train_loss:4.6788 train_time:12933ms step_avg:159.67ms
step:92/1530 train_loss:4.8064 train_time:13093ms step_avg:159.67ms
step:93/1530 train_loss:4.6153 train_time:13253ms step_avg:159.67ms
step:94/1530 train_loss:4.6516 train_time:13414ms step_avg:159.69ms
step:95/1530 train_loss:4.6937 train_time:13576ms step_avg:159.71ms
step:96/1530 train_loss:4.5961 train_time:13736ms step_avg:159.72ms
step:97/1530 train_loss:4.6416 train_time:13896ms step_avg:159.73ms
step:98/1530 train_loss:4.5932 train_time:14056ms step_avg:159.72ms
step:99/1530 train_loss:4.6692 train_time:14217ms step_avg:159.74ms
step:100/1530 train_loss:4.6870 train_time:14378ms step_avg:159.75ms
step:101/1530 train_loss:4.5556 train_time:14539ms step_avg:159.77ms
step:102/1530 train_loss:4.7175 train_time:14699ms step_avg:159.77ms
step:103/1530 train_loss:4.6021 train_time:14859ms step_avg:159.77ms
step:104/1530 train_loss:4.5502 train_time:15019ms step_avg:159.78ms
step:105/1530 train_loss:4.5677 train_time:15179ms step_avg:159.78ms
step:106/1530 train_loss:4.6250 train_time:15340ms step_avg:159.79ms
step:107/1530 train_loss:4.5157 train_time:15500ms step_avg:159.79ms
step:108/1530 train_loss:4.3647 train_time:15660ms step_avg:159.79ms
step:109/1530 train_loss:4.4960 train_time:15820ms step_avg:159.80ms
step:110/1530 train_loss:4.5055 train_time:15980ms step_avg:159.80ms
step:111/1530 train_loss:4.4464 train_time:16140ms step_avg:159.81ms
step:112/1530 train_loss:4.5991 train_time:16301ms step_avg:159.81ms
step:113/1530 train_loss:4.5185 train_time:16462ms step_avg:159.82ms
step:114/1530 train_loss:4.3846 train_time:16622ms step_avg:159.82ms
step:115/1530 train_loss:4.5113 train_time:16784ms step_avg:159.85ms
step:116/1530 train_loss:4.4775 train_time:16948ms step_avg:159.89ms
step:117/1530 train_loss:4.3730 train_time:17115ms step_avg:159.95ms
step:118/1530 train_loss:4.5995 train_time:17278ms step_avg:159.98ms
step:119/1530 train_loss:4.4689 train_time:17441ms step_avg:160.01ms
step:120/1530 train_loss:4.3322 train_time:17606ms step_avg:160.06ms
step:121/1530 train_loss:4.3035 train_time:17769ms step_avg:160.08ms
step:122/1530 train_loss:4.4658 train_time:17933ms step_avg:160.12ms
step:123/1530 train_loss:4.3041 train_time:18097ms step_avg:160.15ms
step:124/1530 train_loss:4.6059 train_time:18259ms step_avg:160.17ms
step:125/1530 train_loss:4.4652 train_time:18423ms step_avg:160.20ms
step:125/1530 val_loss:4.4170 train_time:18470ms step_avg:160.61ms
step:126/1530 train_loss:4.4333 train_time:18590ms step_avg:160.26ms
step:127/1530 train_loss:4.4482 train_time:18754ms step_avg:160.29ms
step:128/1530 train_loss:4.3782 train_time:18918ms step_avg:160.32ms
step:129/1530 train_loss:4.6842 train_time:19084ms step_avg:160.37ms
step:130/1530 train_loss:4.3739 train_time:19248ms step_avg:160.40ms
step:131/1530 train_loss:4.4023 train_time:19411ms step_avg:160.42ms
step:132/1530 train_loss:4.3498 train_time:19576ms step_avg:160.46ms
step:133/1530 train_loss:4.4596 train_time:19741ms step_avg:160.50ms
step:134/1530 train_loss:4.2679 train_time:19905ms step_avg:160.52ms
step:135/1530 train_loss:4.4509 train_time:20069ms step_avg:160.55ms
step:136/1530 train_loss:4.2174 train_time:20232ms step_avg:160.57ms
step:137/1530 train_loss:4.3858 train_time:20395ms step_avg:160.59ms
step:138/1530 train_loss:4.2880 train_time:20560ms step_avg:160.63ms
step:139/1530 train_loss:4.3897 train_time:20725ms step_avg:160.66ms
step:140/1530 train_loss:4.4817 train_time:20890ms step_avg:160.69ms
step:141/1530 train_loss:4.3140 train_time:21054ms step_avg:160.72ms
step:142/1530 train_loss:4.3069 train_time:21218ms step_avg:160.74ms
step:143/1530 train_loss:4.2676 train_time:21381ms step_avg:160.76ms
step:144/1530 train_loss:4.3632 train_time:21546ms step_avg:160.79ms
step:145/1530 train_loss:4.3093 train_time:21710ms step_avg:160.82ms
step:146/1530 train_loss:4.1735 train_time:21874ms step_avg:160.84ms
step:147/1530 train_loss:4.3291 train_time:22038ms step_avg:160.86ms
step:148/1530 train_loss:4.3803 train_time:22201ms step_avg:160.88ms
step:149/1530 train_loss:4.3148 train_time:22366ms step_avg:160.91ms
step:150/1530 train_loss:4.4400 train_time:22529ms step_avg:160.92ms
step:151/1530 train_loss:4.2753 train_time:22693ms step_avg:160.94ms
step:152/1530 train_loss:4.2729 train_time:22856ms step_avg:160.96ms
step:153/1530 train_loss:4.3789 train_time:23020ms step_avg:160.98ms
step:154/1530 train_loss:4.3832 train_time:23186ms step_avg:161.02ms
step:155/1530 train_loss:4.2751 train_time:23350ms step_avg:161.03ms
step:156/1530 train_loss:4.3461 train_time:23514ms step_avg:161.05ms
step:157/1530 train_loss:4.4128 train_time:23677ms step_avg:161.07ms
step:158/1530 train_loss:4.2576 train_time:23841ms step_avg:161.09ms
step:159/1530 train_loss:4.3143 train_time:24005ms step_avg:161.11ms
step:160/1530 train_loss:4.1348 train_time:24169ms step_avg:161.13ms
step:161/1530 train_loss:4.3624 train_time:24332ms step_avg:161.14ms
step:162/1530 train_loss:4.3721 train_time:24496ms step_avg:161.16ms
step:163/1530 train_loss:4.3515 train_time:24660ms step_avg:161.18ms
step:164/1530 train_loss:4.1977 train_time:24823ms step_avg:161.19ms
step:165/1530 train_loss:4.2903 train_time:24988ms step_avg:161.22ms
step:166/1530 train_loss:4.3521 train_time:25152ms step_avg:161.23ms
step:167/1530 train_loss:4.2126 train_time:25316ms step_avg:161.25ms
step:168/1530 train_loss:4.2944 train_time:25481ms step_avg:161.27ms
step:169/1530 train_loss:4.1742 train_time:25646ms step_avg:161.29ms
step:170/1530 train_loss:4.0275 train_time:25810ms step_avg:161.31ms
step:171/1530 train_loss:4.2281 train_time:25972ms step_avg:161.32ms
step:172/1530 train_loss:4.2243 train_time:26134ms step_avg:161.32ms
step:173/1530 train_loss:4.2788 train_time:26297ms step_avg:161.33ms
step:174/1530 train_loss:4.4229 train_time:26461ms step_avg:161.35ms
step:175/1530 train_loss:4.2504 train_time:26624ms step_avg:161.36ms
step:176/1530 train_loss:4.1026 train_time:26787ms step_avg:161.37ms
step:177/1530 train_loss:4.0645 train_time:26951ms step_avg:161.38ms
step:178/1530 train_loss:4.1857 train_time:27113ms step_avg:161.39ms
step:179/1530 train_loss:4.1291 train_time:27275ms step_avg:161.39ms
step:180/1530 train_loss:4.1219 train_time:27438ms step_avg:161.40ms
step:181/1530 train_loss:4.2980 train_time:27600ms step_avg:161.41ms
step:182/1530 train_loss:4.1524 train_time:27765ms step_avg:161.43ms
step:183/1530 train_loss:4.1305 train_time:27928ms step_avg:161.43ms
step:184/1530 train_loss:4.1334 train_time:28090ms step_avg:161.44ms
step:185/1530 train_loss:4.2153 train_time:28253ms step_avg:161.44ms
step:186/1530 train_loss:4.1731 train_time:28415ms step_avg:161.45ms
step:187/1530 train_loss:4.2403 train_time:28578ms step_avg:161.45ms
step:188/1530 train_loss:4.1703 train_time:28876ms step_avg:162.22ms
step:189/1530 train_loss:4.1183 train_time:29208ms step_avg:163.17ms
step:190/1530 train_loss:4.2156 train_time:29376ms step_avg:163.20ms
step:191/1530 train_loss:4.0853 train_time:29538ms step_avg:163.19ms
step:192/1530 train_loss:4.0310 train_time:29700ms step_avg:163.19ms
step:193/1530 train_loss:4.2622 train_time:29865ms step_avg:163.20ms
step:194/1530 train_loss:4.1820 train_time:30028ms step_avg:163.20ms
step:195/1530 train_loss:4.3597 train_time:30190ms step_avg:163.19ms
step:196/1530 train_loss:4.1846 train_time:30353ms step_avg:163.19ms
step:197/1530 train_loss:4.0554 train_time:30517ms step_avg:163.19ms
step:198/1530 train_loss:4.1833 train_time:30681ms step_avg:163.20ms
step:199/1530 train_loss:4.0417 train_time:30844ms step_avg:163.20ms
step:200/1530 train_loss:4.1231 train_time:31007ms step_avg:163.19ms
step:201/1530 train_loss:4.0288 train_time:31170ms step_avg:163.20ms
step:202/1530 train_loss:4.2620 train_time:31332ms step_avg:163.19ms
step:203/1530 train_loss:4.0676 train_time:31495ms step_avg:163.19ms
step:204/1530 train_loss:4.2035 train_time:31657ms step_avg:163.18ms
step:205/1530 train_loss:4.2585 train_time:31821ms step_avg:163.19ms
step:206/1530 train_loss:3.9465 train_time:31985ms step_avg:163.19ms
step:207/1530 train_loss:4.0747 train_time:32148ms step_avg:163.19ms
step:208/1530 train_loss:4.0997 train_time:32311ms step_avg:163.19ms
step:209/1530 train_loss:4.2353 train_time:32475ms step_avg:163.19ms
step:210/1530 train_loss:4.1747 train_time:32636ms step_avg:163.18ms
step:211/1530 train_loss:4.0712 train_time:32799ms step_avg:163.18ms
step:212/1530 train_loss:4.1271 train_time:32962ms step_avg:163.18ms
step:213/1530 train_loss:4.0646 train_time:33126ms step_avg:163.18ms
step:214/1530 train_loss:4.1291 train_time:33289ms step_avg:163.18ms
step:215/1530 train_loss:3.9787 train_time:33452ms step_avg:163.18ms
step:216/1530 train_loss:4.0079 train_time:33615ms step_avg:163.18ms
step:217/1530 train_loss:4.0149 train_time:33778ms step_avg:163.18ms
step:218/1530 train_loss:4.0869 train_time:33940ms step_avg:163.17ms
step:219/1530 train_loss:4.0812 train_time:34103ms step_avg:163.17ms
step:220/1530 train_loss:4.0904 train_time:34267ms step_avg:163.18ms
step:221/1530 train_loss:4.0978 train_time:34429ms step_avg:163.17ms
step:222/1530 train_loss:3.9985 train_time:34592ms step_avg:163.17ms
step:223/1530 train_loss:3.9991 train_time:34756ms step_avg:163.17ms
step:224/1530 train_loss:4.3046 train_time:34919ms step_avg:163.17ms
step:225/1530 train_loss:3.9320 train_time:35082ms step_avg:163.17ms
step:226/1530 train_loss:3.9861 train_time:35246ms step_avg:163.17ms
step:227/1530 train_loss:3.9836 train_time:35408ms step_avg:163.17ms
step:228/1530 train_loss:4.1484 train_time:35573ms step_avg:163.18ms
step:229/1530 train_loss:3.9210 train_time:35739ms step_avg:163.19ms
step:230/1530 train_loss:4.0453 train_time:35904ms step_avg:163.20ms
step:231/1530 train_loss:3.9079 train_time:36071ms step_avg:163.22ms
step:232/1530 train_loss:3.9711 train_time:36237ms step_avg:163.23ms
step:233/1530 train_loss:4.0912 train_time:36403ms step_avg:163.24ms
step:234/1530 train_loss:4.0362 train_time:36570ms step_avg:163.26ms
step:235/1530 train_loss:3.9068 train_time:36736ms step_avg:163.27ms
step:236/1530 train_loss:4.0883 train_time:36902ms step_avg:163.28ms
step:237/1530 train_loss:4.0822 train_time:37068ms step_avg:163.30ms
step:238/1530 train_loss:3.9544 train_time:37233ms step_avg:163.30ms
step:239/1530 train_loss:4.0963 train_time:37398ms step_avg:163.31ms
step:240/1530 train_loss:4.1295 train_time:37565ms step_avg:163.33ms
step:241/1530 train_loss:3.9774 train_time:37730ms step_avg:163.33ms
step:242/1530 train_loss:4.1552 train_time:37896ms step_avg:163.34ms
step:243/1530 train_loss:4.0101 train_time:38062ms step_avg:163.36ms
step:244/1530 train_loss:4.0858 train_time:38228ms step_avg:163.37ms
step:245/1530 train_loss:4.1438 train_time:38394ms step_avg:163.38ms
step:246/1530 train_loss:4.0616 train_time:38560ms step_avg:163.39ms
step:247/1530 train_loss:4.0148 train_time:38727ms step_avg:163.40ms
step:248/1530 train_loss:4.1124 train_time:38893ms step_avg:163.41ms
step:249/1530 train_loss:3.9331 train_time:39058ms step_avg:163.42ms
step:250/1530 train_loss:3.9836 train_time:39225ms step_avg:163.44ms
step:250/1530 val_loss:4.0139 train_time:39272ms step_avg:163.63ms
step:251/1530 train_loss:4.0791 train_time:39391ms step_avg:163.45ms
step:252/1530 train_loss:4.1730 train_time:39559ms step_avg:163.47ms
step:253/1530 train_loss:3.9400 train_time:39727ms step_avg:163.49ms
step:254/1530 train_loss:3.8890 train_time:39892ms step_avg:163.49ms
step:255/1530 train_loss:4.0839 train_time:40057ms step_avg:163.50ms
step:256/1530 train_loss:3.9997 train_time:40223ms step_avg:163.51ms
step:257/1530 train_loss:3.9997 train_time:40389ms step_avg:163.52ms
step:258/1530 train_loss:3.9983 train_time:40555ms step_avg:163.53ms
step:259/1530 train_loss:4.0384 train_time:40721ms step_avg:163.54ms
step:260/1530 train_loss:4.0664 train_time:40888ms step_avg:163.55ms
step:261/1530 train_loss:4.0344 train_time:41055ms step_avg:163.56ms
step:262/1530 train_loss:4.0016 train_time:41221ms step_avg:163.58ms
step:263/1530 train_loss:3.8984 train_time:41387ms step_avg:163.59ms
step:264/1530 train_loss:3.9982 train_time:41553ms step_avg:163.59ms
step:265/1530 train_loss:3.8803 train_time:41720ms step_avg:163.61ms
step:266/1530 train_loss:3.9264 train_time:41886ms step_avg:163.62ms
step:267/1530 train_loss:3.9358 train_time:42051ms step_avg:163.62ms
step:268/1530 train_loss:3.9755 train_time:42216ms step_avg:163.63ms
step:269/1530 train_loss:3.8627 train_time:42381ms step_avg:163.64ms
step:270/1530 train_loss:4.1089 train_time:42547ms step_avg:163.64ms
step:271/1530 train_loss:3.9780 train_time:42713ms step_avg:163.65ms
step:272/1530 train_loss:3.9335 train_time:42879ms step_avg:163.66ms
step:273/1530 train_loss:3.9524 train_time:43044ms step_avg:163.67ms
step:274/1530 train_loss:4.0399 train_time:43211ms step_avg:163.68ms
step:275/1530 train_loss:4.0762 train_time:43377ms step_avg:163.69ms
step:276/1530 train_loss:4.2361 train_time:43543ms step_avg:163.70ms
step:277/1530 train_loss:4.0433 train_time:43710ms step_avg:163.71ms
step:278/1530 train_loss:4.0965 train_time:43876ms step_avg:163.72ms
step:279/1530 train_loss:4.0060 train_time:44042ms step_avg:163.72ms
step:280/1530 train_loss:4.2096 train_time:44210ms step_avg:163.74ms
step:281/1530 train_loss:3.9816 train_time:44375ms step_avg:163.75ms
step:282/1530 train_loss:3.9508 train_time:44541ms step_avg:163.76ms
step:283/1530 train_loss:3.9206 train_time:44710ms step_avg:163.77ms
step:284/1530 train_loss:4.0606 train_time:44875ms step_avg:163.78ms
step:285/1530 train_loss:4.0691 train_time:45040ms step_avg:163.78ms
step:286/1530 train_loss:4.0935 train_time:45206ms step_avg:163.79ms
step:287/1530 train_loss:3.9188 train_time:45370ms step_avg:163.79ms
step:288/1530 train_loss:4.0161 train_time:45535ms step_avg:163.79ms
step:289/1530 train_loss:3.8782 train_time:45700ms step_avg:163.80ms
step:290/1530 train_loss:3.8662 train_time:45866ms step_avg:163.81ms
step:291/1530 train_loss:3.9223 train_time:46032ms step_avg:163.81ms
step:292/1530 train_loss:3.8692 train_time:46196ms step_avg:163.81ms
step:293/1530 train_loss:3.9102 train_time:46361ms step_avg:163.82ms
step:294/1530 train_loss:3.9443 train_time:46526ms step_avg:163.83ms
step:295/1530 train_loss:3.8458 train_time:46691ms step_avg:163.83ms
step:296/1530 train_loss:3.8626 train_time:46856ms step_avg:163.83ms
step:297/1530 train_loss:3.8704 train_time:47021ms step_avg:163.84ms
step:298/1530 train_loss:3.9848 train_time:47187ms step_avg:163.84ms
step:299/1530 train_loss:3.8306 train_time:47352ms step_avg:163.85ms
step:300/1530 train_loss:3.9793 train_time:47517ms step_avg:163.85ms
step:301/1530 train_loss:3.9735 train_time:47681ms step_avg:163.85ms
step:302/1530 train_loss:3.9393 train_time:47847ms step_avg:163.86ms
step:303/1530 train_loss:3.9823 train_time:48012ms step_avg:163.86ms
step:304/1530 train_loss:3.9671 train_time:48175ms step_avg:163.86ms
step:305/1530 train_loss:4.4585 train_time:48340ms step_avg:163.86ms
step:306/1530 train_loss:3.9444 train_time:48505ms step_avg:163.87ms
step:307/1530 train_loss:3.8405 train_time:48669ms step_avg:163.87ms
step:308/1530 train_loss:3.9836 train_time:48834ms step_avg:163.87ms
step:309/1530 train_loss:3.8808 train_time:48999ms step_avg:163.88ms
step:310/1530 train_loss:4.0859 train_time:49164ms step_avg:163.88ms
step:311/1530 train_loss:3.9323 train_time:49330ms step_avg:163.89ms
step:312/1530 train_loss:3.8716 train_time:49495ms step_avg:163.89ms
step:313/1530 train_loss:3.9446 train_time:49660ms step_avg:163.89ms
step:314/1530 train_loss:4.0710 train_time:49826ms step_avg:163.90ms
step:315/1530 train_loss:3.9549 train_time:49990ms step_avg:163.90ms
step:316/1530 train_loss:3.8074 train_time:50155ms step_avg:163.91ms
step:317/1530 train_loss:3.8803 train_time:50320ms step_avg:163.91ms
step:318/1530 train_loss:3.9290 train_time:50485ms step_avg:163.91ms
step:319/1530 train_loss:3.9082 train_time:50651ms step_avg:163.92ms
step:320/1530 train_loss:4.0204 train_time:50816ms step_avg:163.92ms
step:321/1530 train_loss:3.9643 train_time:50981ms step_avg:163.93ms
step:322/1530 train_loss:3.9335 train_time:51146ms step_avg:163.93ms
step:323/1530 train_loss:4.0113 train_time:51312ms step_avg:163.93ms
step:324/1530 train_loss:3.9503 train_time:51475ms step_avg:163.93ms
step:325/1530 train_loss:4.0196 train_time:51640ms step_avg:163.94ms
step:326/1530 train_loss:3.9070 train_time:51807ms step_avg:163.95ms
step:327/1530 train_loss:4.4020 train_time:51972ms step_avg:163.95ms
step:328/1530 train_loss:4.0771 train_time:52137ms step_avg:163.95ms
step:329/1530 train_loss:3.8048 train_time:52303ms step_avg:163.96ms
step:330/1530 train_loss:3.7620 train_time:52468ms step_avg:163.96ms
step:331/1530 train_loss:3.9827 train_time:52633ms step_avg:163.97ms
step:332/1530 train_loss:3.9198 train_time:52798ms step_avg:163.97ms
step:333/1530 train_loss:3.8950 train_time:52964ms step_avg:163.97ms
step:334/1530 train_loss:3.8524 train_time:53130ms step_avg:163.98ms
step:335/1530 train_loss:4.0163 train_time:53294ms step_avg:163.98ms
step:336/1530 train_loss:3.9676 train_time:53459ms step_avg:163.99ms
step:337/1530 train_loss:4.4224 train_time:53627ms step_avg:164.00ms
step:338/1530 train_loss:3.9534 train_time:53792ms step_avg:164.00ms
step:339/1530 train_loss:3.8714 train_time:53956ms step_avg:164.00ms
step:340/1530 train_loss:3.9410 train_time:54122ms step_avg:164.01ms
step:341/1530 train_loss:3.8633 train_time:54289ms step_avg:164.01ms
step:342/1530 train_loss:3.8188 train_time:54456ms step_avg:164.02ms
step:343/1530 train_loss:3.8474 train_time:54624ms step_avg:164.04ms
step:344/1530 train_loss:4.0025 train_time:54792ms step_avg:164.05ms
step:345/1530 train_loss:3.8220 train_time:54962ms step_avg:164.07ms
step:346/1530 train_loss:3.7703 train_time:55131ms step_avg:164.08ms
step:347/1530 train_loss:3.8048 train_time:55298ms step_avg:164.09ms
step:348/1530 train_loss:3.8669 train_time:55467ms step_avg:164.10ms
step:349/1530 train_loss:3.8383 train_time:55635ms step_avg:164.12ms
step:350/1530 train_loss:3.5736 train_time:55804ms step_avg:164.13ms
step:351/1530 train_loss:3.8371 train_time:55971ms step_avg:164.14ms
step:352/1530 train_loss:4.1836 train_time:56138ms step_avg:164.15ms
step:353/1530 train_loss:3.6619 train_time:56306ms step_avg:164.16ms
step:354/1530 train_loss:3.9339 train_time:56473ms step_avg:164.17ms
step:355/1530 train_loss:3.7908 train_time:56643ms step_avg:164.18ms
step:356/1530 train_loss:3.8916 train_time:56811ms step_avg:164.19ms
step:357/1530 train_loss:3.7614 train_time:56978ms step_avg:164.20ms
step:358/1530 train_loss:3.8778 train_time:57146ms step_avg:164.21ms
step:359/1530 train_loss:3.7707 train_time:57316ms step_avg:164.23ms
step:360/1530 train_loss:3.4415 train_time:57485ms step_avg:164.24ms
step:361/1530 train_loss:4.0225 train_time:57654ms step_avg:164.26ms
step:362/1530 train_loss:3.9217 train_time:57822ms step_avg:164.27ms
step:363/1530 train_loss:3.8463 train_time:57990ms step_avg:164.28ms
step:364/1530 train_loss:3.7514 train_time:58157ms step_avg:164.29ms
step:365/1530 train_loss:3.9185 train_time:58326ms step_avg:164.30ms
step:366/1530 train_loss:3.8682 train_time:58495ms step_avg:164.31ms
step:367/1530 train_loss:3.8623 train_time:58662ms step_avg:164.32ms
step:368/1530 train_loss:3.8538 train_time:58830ms step_avg:164.33ms
step:369/1530 train_loss:3.7486 train_time:58997ms step_avg:164.34ms
step:370/1530 train_loss:3.8854 train_time:59166ms step_avg:164.35ms
step:371/1530 train_loss:3.7368 train_time:59334ms step_avg:164.36ms
step:372/1530 train_loss:3.6981 train_time:59502ms step_avg:164.37ms
step:373/1530 train_loss:3.9243 train_time:59669ms step_avg:164.38ms
step:374/1530 train_loss:3.8360 train_time:59836ms step_avg:164.39ms
step:375/1530 train_loss:3.8048 train_time:60005ms step_avg:164.40ms
step:375/1530 val_loss:3.8338 train_time:60053ms step_avg:164.53ms
step:376/1530 train_loss:3.8672 train_time:60176ms step_avg:164.41ms
step:377/1530 train_loss:3.7943 train_time:60481ms step_avg:164.80ms
step:378/1530 train_loss:3.8430 train_time:60659ms step_avg:164.83ms
step:379/1530 train_loss:3.8759 train_time:60981ms step_avg:165.26ms
step:380/1530 train_loss:3.9550 train_time:61148ms step_avg:165.26ms
step:381/1530 train_loss:3.8477 train_time:61314ms step_avg:165.27ms
step:382/1530 train_loss:3.8072 train_time:61484ms step_avg:165.28ms
step:383/1530 train_loss:3.8006 train_time:61651ms step_avg:165.28ms
step:384/1530 train_loss:3.8801 train_time:61819ms step_avg:165.29ms
step:385/1530 train_loss:3.8051 train_time:61989ms step_avg:165.31ms
step:386/1530 train_loss:3.9025 train_time:62156ms step_avg:165.31ms
step:387/1530 train_loss:4.0651 train_time:62324ms step_avg:165.32ms
step:388/1530 train_loss:3.8015 train_time:62491ms step_avg:165.32ms
step:389/1530 train_loss:3.7972 train_time:62660ms step_avg:165.33ms
step:390/1530 train_loss:3.9043 train_time:62828ms step_avg:165.34ms
step:391/1530 train_loss:3.8192 train_time:62996ms step_avg:165.34ms
step:392/1530 train_loss:3.9266 train_time:63164ms step_avg:165.35ms
step:393/1530 train_loss:3.7704 train_time:63330ms step_avg:165.35ms
step:394/1530 train_loss:3.8956 train_time:63498ms step_avg:165.36ms
step:395/1530 train_loss:3.6387 train_time:63668ms step_avg:165.37ms
step:396/1530 train_loss:3.8376 train_time:63835ms step_avg:165.37ms
step:397/1530 train_loss:3.8691 train_time:64002ms step_avg:165.38ms
step:398/1530 train_loss:3.8884 train_time:64169ms step_avg:165.39ms
step:399/1530 train_loss:3.7744 train_time:64335ms step_avg:165.39ms
step:400/1530 train_loss:3.8279 train_time:64504ms step_avg:165.39ms
step:401/1530 train_loss:3.9186 train_time:64670ms step_avg:165.40ms
step:402/1530 train_loss:3.8521 train_time:64838ms step_avg:165.40ms
step:403/1530 train_loss:3.9683 train_time:65006ms step_avg:165.41ms
step:404/1530 train_loss:3.6904 train_time:65172ms step_avg:165.41ms
step:405/1530 train_loss:3.7855 train_time:65339ms step_avg:165.42ms
step:406/1530 train_loss:4.0936 train_time:65506ms step_avg:165.42ms
step:407/1530 train_loss:3.7841 train_time:65674ms step_avg:165.42ms
step:408/1530 train_loss:3.8240 train_time:65839ms step_avg:165.43ms
step:409/1530 train_loss:3.8647 train_time:66007ms step_avg:165.43ms
step:410/1530 train_loss:3.7632 train_time:66173ms step_avg:165.43ms
step:411/1530 train_loss:3.7667 train_time:66340ms step_avg:165.44ms
step:412/1530 train_loss:4.1945 train_time:66509ms step_avg:165.44ms
step:413/1530 train_loss:3.6282 train_time:66677ms step_avg:165.45ms
step:414/1530 train_loss:4.0182 train_time:66845ms step_avg:165.46ms
step:415/1530 train_loss:3.7632 train_time:67011ms step_avg:165.46ms
step:416/1530 train_loss:3.7738 train_time:67178ms step_avg:165.46ms
step:417/1530 train_loss:3.9545 train_time:67347ms step_avg:165.47ms
step:418/1530 train_loss:3.6948 train_time:67514ms step_avg:165.47ms
step:419/1530 train_loss:3.8111 train_time:67681ms step_avg:165.48ms
step:420/1530 train_loss:3.7085 train_time:67848ms step_avg:165.48ms
step:421/1530 train_loss:3.6525 train_time:68013ms step_avg:165.48ms
step:422/1530 train_loss:3.7904 train_time:68183ms step_avg:165.49ms
step:423/1530 train_loss:3.8777 train_time:68349ms step_avg:165.49ms
step:424/1530 train_loss:3.6176 train_time:68515ms step_avg:165.50ms
step:425/1530 train_loss:3.8093 train_time:68685ms step_avg:165.51ms
step:426/1530 train_loss:3.6591 train_time:68851ms step_avg:165.51ms
step:427/1530 train_loss:3.9009 train_time:69021ms step_avg:165.52ms
step:428/1530 train_loss:3.8184 train_time:69189ms step_avg:165.52ms
step:429/1530 train_loss:3.7593 train_time:69356ms step_avg:165.53ms
step:430/1530 train_loss:3.7104 train_time:69523ms step_avg:165.53ms
step:431/1530 train_loss:3.6330 train_time:69690ms step_avg:165.53ms
step:432/1530 train_loss:3.7717 train_time:69857ms step_avg:165.54ms
step:433/1530 train_loss:3.8254 train_time:70024ms step_avg:165.54ms
step:434/1530 train_loss:3.7787 train_time:70191ms step_avg:165.54ms
step:435/1530 train_loss:3.8104 train_time:70357ms step_avg:165.55ms
step:436/1530 train_loss:3.8386 train_time:70524ms step_avg:165.55ms
step:437/1530 train_loss:3.7255 train_time:70690ms step_avg:165.55ms
step:438/1530 train_loss:3.7092 train_time:70858ms step_avg:165.56ms
step:439/1530 train_loss:3.7167 train_time:71025ms step_avg:165.56ms
step:440/1530 train_loss:3.8986 train_time:71192ms step_avg:165.56ms
step:441/1530 train_loss:3.7644 train_time:71361ms step_avg:165.57ms
step:442/1530 train_loss:3.7462 train_time:71527ms step_avg:165.57ms
step:443/1530 train_loss:3.6283 train_time:71693ms step_avg:165.57ms
step:444/1530 train_loss:3.9273 train_time:71862ms step_avg:165.58ms
step:445/1530 train_loss:3.8521 train_time:72028ms step_avg:165.58ms
step:446/1530 train_loss:3.8432 train_time:72196ms step_avg:165.59ms
step:447/1530 train_loss:3.7631 train_time:72365ms step_avg:165.59ms
step:448/1530 train_loss:3.8650 train_time:72531ms step_avg:165.60ms
step:449/1530 train_loss:3.6990 train_time:72699ms step_avg:165.60ms
step:450/1530 train_loss:3.7397 train_time:72866ms step_avg:165.61ms
step:451/1530 train_loss:3.5910 train_time:73033ms step_avg:165.61ms
step:452/1530 train_loss:3.7161 train_time:73200ms step_avg:165.61ms
step:453/1530 train_loss:3.6807 train_time:73368ms step_avg:165.62ms
step:454/1530 train_loss:3.6470 train_time:73535ms step_avg:165.62ms
step:455/1530 train_loss:3.8514 train_time:73704ms step_avg:165.63ms
step:456/1530 train_loss:3.7343 train_time:73873ms step_avg:165.63ms
step:457/1530 train_loss:3.7888 train_time:74043ms step_avg:165.64ms
step:458/1530 train_loss:3.8400 train_time:74212ms step_avg:165.65ms
step:459/1530 train_loss:3.6388 train_time:74383ms step_avg:165.66ms
step:460/1530 train_loss:3.7962 train_time:74553ms step_avg:165.67ms
step:461/1530 train_loss:3.7040 train_time:74723ms step_avg:165.68ms
step:462/1530 train_loss:3.7443 train_time:74891ms step_avg:165.69ms
step:463/1530 train_loss:3.7802 train_time:75062ms step_avg:165.70ms
step:464/1530 train_loss:3.7205 train_time:75230ms step_avg:165.71ms
step:465/1530 train_loss:3.7207 train_time:75400ms step_avg:165.71ms
step:466/1530 train_loss:3.8051 train_time:75571ms step_avg:165.73ms
step:467/1530 train_loss:3.8298 train_time:75743ms step_avg:165.74ms
step:468/1530 train_loss:3.8025 train_time:75912ms step_avg:165.75ms
step:469/1530 train_loss:3.6942 train_time:76082ms step_avg:165.76ms
step:470/1530 train_loss:3.7685 train_time:76252ms step_avg:165.77ms
step:471/1530 train_loss:3.8119 train_time:76421ms step_avg:165.77ms
step:472/1530 train_loss:3.7908 train_time:76593ms step_avg:165.78ms
step:473/1530 train_loss:3.7237 train_time:76762ms step_avg:165.79ms
step:474/1530 train_loss:3.6024 train_time:76931ms step_avg:165.80ms
step:475/1530 train_loss:4.0307 train_time:77102ms step_avg:165.81ms
step:476/1530 train_loss:3.7595 train_time:77272ms step_avg:165.82ms
step:477/1530 train_loss:3.6055 train_time:77444ms step_avg:165.83ms
step:478/1530 train_loss:3.8284 train_time:77612ms step_avg:165.84ms
step:479/1530 train_loss:3.7773 train_time:77784ms step_avg:165.85ms
step:480/1530 train_loss:3.9260 train_time:77954ms step_avg:165.86ms
step:481/1530 train_loss:3.7325 train_time:78124ms step_avg:165.87ms
step:482/1530 train_loss:3.5352 train_time:78293ms step_avg:165.87ms
step:483/1530 train_loss:3.8130 train_time:78463ms step_avg:165.88ms
step:484/1530 train_loss:3.6700 train_time:78632ms step_avg:165.89ms
step:485/1530 train_loss:3.6669 train_time:78802ms step_avg:165.90ms
step:486/1530 train_loss:3.5784 train_time:78972ms step_avg:165.91ms
step:487/1530 train_loss:3.6948 train_time:79141ms step_avg:165.91ms
step:488/1530 train_loss:3.8851 train_time:79310ms step_avg:165.92ms
step:489/1530 train_loss:3.7152 train_time:79481ms step_avg:165.93ms
step:490/1530 train_loss:3.6027 train_time:79650ms step_avg:165.94ms
step:491/1530 train_loss:3.6172 train_time:79819ms step_avg:165.94ms
step:492/1530 train_loss:3.7436 train_time:79989ms step_avg:165.95ms
step:493/1530 train_loss:3.5779 train_time:80162ms step_avg:165.97ms
step:494/1530 train_loss:3.7095 train_time:80330ms step_avg:165.97ms
step:495/1530 train_loss:3.6647 train_time:80501ms step_avg:165.98ms
step:496/1530 train_loss:3.5175 train_time:80673ms step_avg:165.99ms
step:497/1530 train_loss:3.7403 train_time:80842ms step_avg:166.00ms
step:498/1530 train_loss:3.7901 train_time:81011ms step_avg:166.01ms
step:499/1530 train_loss:3.8254 train_time:81180ms step_avg:166.01ms
step:500/1530 train_loss:3.7418 train_time:81352ms step_avg:166.02ms
step:500/1530 val_loss:3.7092 train_time:81401ms step_avg:166.12ms
step:501/1530 train_loss:3.8103 train_time:81523ms step_avg:166.04ms
step:502/1530 train_loss:3.7551 train_time:81695ms step_avg:166.05ms
step:503/1530 train_loss:3.7787 train_time:81864ms step_avg:166.05ms
step:504/1530 train_loss:3.7267 train_time:82033ms step_avg:166.06ms
step:505/1530 train_loss:3.8103 train_time:82203ms step_avg:166.07ms
step:506/1530 train_loss:3.6454 train_time:82371ms step_avg:166.07ms
step:507/1530 train_loss:3.7693 train_time:82540ms step_avg:166.08ms
step:508/1530 train_loss:3.8239 train_time:82710ms step_avg:166.08ms
step:509/1530 train_loss:3.7758 train_time:82879ms step_avg:166.09ms
step:510/1530 train_loss:3.5880 train_time:83048ms step_avg:166.10ms
step:511/1530 train_loss:3.7777 train_time:83218ms step_avg:166.10ms
step:512/1530 train_loss:3.7280 train_time:83388ms step_avg:166.11ms
step:513/1530 train_loss:3.6746 train_time:83556ms step_avg:166.11ms
step:514/1530 train_loss:3.8140 train_time:83728ms step_avg:166.13ms
step:515/1530 train_loss:3.7406 train_time:83897ms step_avg:166.13ms
step:516/1530 train_loss:4.0823 train_time:84066ms step_avg:166.14ms
step:517/1530 train_loss:3.6986 train_time:84235ms step_avg:166.14ms
step:518/1530 train_loss:3.7778 train_time:84404ms step_avg:166.15ms
step:519/1530 train_loss:3.6643 train_time:84573ms step_avg:166.16ms
step:520/1530 train_loss:3.6888 train_time:84742ms step_avg:166.16ms
step:521/1530 train_loss:3.6638 train_time:84911ms step_avg:166.17ms
step:522/1530 train_loss:3.6575 train_time:85081ms step_avg:166.17ms
step:523/1530 train_loss:4.2921 train_time:85250ms step_avg:166.18ms
step:524/1530 train_loss:3.7379 train_time:85419ms step_avg:166.18ms
step:525/1530 train_loss:3.6881 train_time:85587ms step_avg:166.19ms
step:526/1530 train_loss:3.7054 train_time:85756ms step_avg:166.19ms
step:527/1530 train_loss:3.6678 train_time:85927ms step_avg:166.20ms
step:528/1530 train_loss:3.6349 train_time:86096ms step_avg:166.21ms
step:529/1530 train_loss:3.8597 train_time:86264ms step_avg:166.21ms
step:530/1530 train_loss:3.6564 train_time:86433ms step_avg:166.22ms
step:531/1530 train_loss:3.9248 train_time:86602ms step_avg:166.22ms
step:532/1530 train_loss:3.7410 train_time:86770ms step_avg:166.23ms
step:533/1530 train_loss:3.6598 train_time:86939ms step_avg:166.23ms
step:534/1530 train_loss:3.6737 train_time:87108ms step_avg:166.24ms
step:535/1530 train_loss:3.6160 train_time:87277ms step_avg:166.24ms
step:536/1530 train_loss:3.7592 train_time:87447ms step_avg:166.25ms
step:537/1530 train_loss:3.7322 train_time:87617ms step_avg:166.26ms
step:538/1530 train_loss:3.6332 train_time:87787ms step_avg:166.26ms
step:539/1530 train_loss:4.1222 train_time:87959ms step_avg:166.27ms
step:540/1530 train_loss:3.6800 train_time:88129ms step_avg:166.28ms
step:541/1530 train_loss:3.7911 train_time:88297ms step_avg:166.28ms
step:542/1530 train_loss:3.5870 train_time:88465ms step_avg:166.29ms
step:543/1530 train_loss:3.5886 train_time:88633ms step_avg:166.29ms
step:544/1530 train_loss:3.6469 train_time:88802ms step_avg:166.30ms
step:545/1530 train_loss:3.6033 train_time:88970ms step_avg:166.30ms
step:546/1530 train_loss:3.6309 train_time:89140ms step_avg:166.31ms
step:547/1530 train_loss:3.6443 train_time:89308ms step_avg:166.31ms
step:548/1530 train_loss:3.6140 train_time:89477ms step_avg:166.31ms
step:549/1530 train_loss:3.7235 train_time:89646ms step_avg:166.32ms
step:550/1530 train_loss:3.6235 train_time:89815ms step_avg:166.32ms
step:551/1530 train_loss:3.6359 train_time:89983ms step_avg:166.33ms
step:552/1530 train_loss:3.9514 train_time:90151ms step_avg:166.33ms
step:553/1530 train_loss:3.7655 train_time:90322ms step_avg:166.34ms
step:554/1530 train_loss:3.7167 train_time:90490ms step_avg:166.34ms
step:555/1530 train_loss:3.6346 train_time:90659ms step_avg:166.35ms
step:556/1530 train_loss:3.7034 train_time:90828ms step_avg:166.35ms
step:557/1530 train_loss:3.3209 train_time:90998ms step_avg:166.36ms
step:558/1530 train_loss:3.6201 train_time:91166ms step_avg:166.36ms
step:559/1530 train_loss:3.6581 train_time:91335ms step_avg:166.37ms
step:560/1530 train_loss:3.6927 train_time:91505ms step_avg:166.37ms
step:561/1530 train_loss:3.6194 train_time:91672ms step_avg:166.37ms
step:562/1530 train_loss:3.5630 train_time:91841ms step_avg:166.38ms
step:563/1530 train_loss:3.7682 train_time:92010ms step_avg:166.38ms
step:564/1530 train_loss:3.5823 train_time:92180ms step_avg:166.39ms
step:565/1530 train_loss:3.6853 train_time:92349ms step_avg:166.39ms
step:566/1530 train_loss:3.6221 train_time:92652ms step_avg:166.64ms
step:567/1530 train_loss:3.5994 train_time:92830ms step_avg:166.66ms
step:568/1530 train_loss:3.6861 train_time:93000ms step_avg:166.67ms
step:569/1530 train_loss:3.6555 train_time:93319ms step_avg:166.94ms
step:570/1530 train_loss:3.6978 train_time:93490ms step_avg:166.95ms
step:571/1530 train_loss:3.7689 train_time:93661ms step_avg:166.95ms
step:572/1530 train_loss:3.7317 train_time:93832ms step_avg:166.96ms
step:573/1530 train_loss:3.7450 train_time:94004ms step_avg:166.97ms
step:574/1530 train_loss:3.7832 train_time:94177ms step_avg:166.98ms
step:575/1530 train_loss:3.7325 train_time:94349ms step_avg:166.99ms
step:576/1530 train_loss:3.7720 train_time:94520ms step_avg:167.00ms
step:577/1530 train_loss:3.6734 train_time:94690ms step_avg:167.00ms
step:578/1530 train_loss:3.6801 train_time:94862ms step_avg:167.01ms
step:579/1530 train_loss:3.6728 train_time:95032ms step_avg:167.02ms
step:580/1530 train_loss:3.5925 train_time:95205ms step_avg:167.03ms
step:581/1530 train_loss:3.6471 train_time:95377ms step_avg:167.04ms
step:582/1530 train_loss:3.8513 train_time:95548ms step_avg:167.04ms
step:583/1530 train_loss:3.6350 train_time:95721ms step_avg:167.05ms
step:584/1530 train_loss:3.6046 train_time:95892ms step_avg:167.06ms
step:585/1530 train_loss:3.7928 train_time:96062ms step_avg:167.06ms
step:586/1530 train_loss:3.5257 train_time:96233ms step_avg:167.07ms
step:587/1530 train_loss:3.6748 train_time:96404ms step_avg:167.08ms
step:588/1530 train_loss:3.6421 train_time:96574ms step_avg:167.08ms
step:589/1530 train_loss:4.0021 train_time:96746ms step_avg:167.09ms
step:590/1530 train_loss:3.7827 train_time:96918ms step_avg:167.10ms
step:591/1530 train_loss:3.5114 train_time:97088ms step_avg:167.10ms
step:592/1530 train_loss:3.5389 train_time:97261ms step_avg:167.12ms
step:593/1530 train_loss:3.5032 train_time:97432ms step_avg:167.12ms
step:594/1530 train_loss:3.5607 train_time:97604ms step_avg:167.13ms
step:595/1530 train_loss:3.9229 train_time:97777ms step_avg:167.14ms
step:596/1530 train_loss:3.6562 train_time:97949ms step_avg:167.15ms
step:597/1530 train_loss:3.5891 train_time:98120ms step_avg:167.15ms
step:598/1530 train_loss:3.6612 train_time:98291ms step_avg:167.16ms
step:599/1530 train_loss:3.4791 train_time:98461ms step_avg:167.17ms
step:600/1530 train_loss:3.6043 train_time:98632ms step_avg:167.17ms
step:601/1530 train_loss:3.6522 train_time:98805ms step_avg:167.18ms
step:602/1530 train_loss:3.6747 train_time:98977ms step_avg:167.19ms
step:603/1530 train_loss:3.7853 train_time:99148ms step_avg:167.20ms
step:604/1530 train_loss:3.6248 train_time:99321ms step_avg:167.21ms
step:605/1530 train_loss:3.6195 train_time:99493ms step_avg:167.22ms
step:606/1530 train_loss:3.5814 train_time:99665ms step_avg:167.22ms
step:607/1530 train_loss:3.8424 train_time:99836ms step_avg:167.23ms
step:608/1530 train_loss:3.6434 train_time:100008ms step_avg:167.24ms
step:609/1530 train_loss:3.6207 train_time:100179ms step_avg:167.24ms
step:610/1530 train_loss:3.7073 train_time:100350ms step_avg:167.25ms
step:611/1530 train_loss:3.6019 train_time:100522ms step_avg:167.26ms
step:612/1530 train_loss:3.5750 train_time:100692ms step_avg:167.26ms
step:613/1530 train_loss:3.7630 train_time:100863ms step_avg:167.27ms
step:614/1530 train_loss:3.7129 train_time:101033ms step_avg:167.27ms
step:615/1530 train_loss:3.7048 train_time:101203ms step_avg:167.28ms
step:616/1530 train_loss:3.6310 train_time:101373ms step_avg:167.28ms
step:617/1530 train_loss:3.5748 train_time:101545ms step_avg:167.29ms
step:618/1530 train_loss:3.6951 train_time:101717ms step_avg:167.30ms
step:619/1530 train_loss:3.5604 train_time:101888ms step_avg:167.30ms
step:620/1530 train_loss:3.5902 train_time:102058ms step_avg:167.31ms
step:621/1530 train_loss:3.9343 train_time:102230ms step_avg:167.32ms
step:622/1530 train_loss:3.5761 train_time:102403ms step_avg:167.33ms
step:623/1530 train_loss:3.6095 train_time:102574ms step_avg:167.33ms
step:624/1530 train_loss:3.7003 train_time:102745ms step_avg:167.34ms
step:625/1530 train_loss:3.7082 train_time:102915ms step_avg:167.34ms
step:625/1530 val_loss:3.6288 train_time:102965ms step_avg:167.42ms
step:626/1530 train_loss:3.7417 train_time:103088ms step_avg:167.35ms
step:627/1530 train_loss:3.7260 train_time:103259ms step_avg:167.36ms
step:628/1530 train_loss:3.7699 train_time:103428ms step_avg:167.36ms
step:629/1530 train_loss:3.5960 train_time:103599ms step_avg:167.36ms
step:630/1530 train_loss:3.7294 train_time:103769ms step_avg:167.37ms
step:631/1530 train_loss:3.7481 train_time:103939ms step_avg:167.37ms
step:632/1530 train_loss:3.6523 train_time:104111ms step_avg:167.38ms
step:633/1530 train_loss:3.6105 train_time:104282ms step_avg:167.39ms
step:634/1530 train_loss:3.7000 train_time:104454ms step_avg:167.39ms
step:635/1530 train_loss:3.9565 train_time:104623ms step_avg:167.40ms
step:636/1530 train_loss:3.5589 train_time:104793ms step_avg:167.40ms
step:637/1530 train_loss:3.3591 train_time:104962ms step_avg:167.40ms
step:638/1530 train_loss:3.5980 train_time:105132ms step_avg:167.41ms
step:639/1530 train_loss:3.6409 train_time:105303ms step_avg:167.41ms
step:640/1530 train_loss:3.5736 train_time:105474ms step_avg:167.42ms
step:641/1530 train_loss:3.5889 train_time:105644ms step_avg:167.42ms
step:642/1530 train_loss:3.6305 train_time:105815ms step_avg:167.43ms
step:643/1530 train_loss:3.6034 train_time:105986ms step_avg:167.44ms
step:644/1530 train_loss:3.5640 train_time:106157ms step_avg:167.44ms
step:645/1530 train_loss:3.7823 train_time:106328ms step_avg:167.45ms
step:646/1530 train_loss:3.6729 train_time:106498ms step_avg:167.45ms
step:647/1530 train_loss:3.6716 train_time:106668ms step_avg:167.45ms
step:648/1530 train_loss:3.7147 train_time:106841ms step_avg:167.46ms
step:649/1530 train_loss:3.7769 train_time:107012ms step_avg:167.47ms
step:650/1530 train_loss:3.6267 train_time:107182ms step_avg:167.47ms
step:651/1530 train_loss:3.7699 train_time:107354ms step_avg:167.48ms
step:652/1530 train_loss:3.5947 train_time:107523ms step_avg:167.48ms
step:653/1530 train_loss:3.6622 train_time:107693ms step_avg:167.48ms
step:654/1530 train_loss:3.4314 train_time:107864ms step_avg:167.49ms
step:655/1530 train_loss:3.5855 train_time:108034ms step_avg:167.49ms
step:656/1530 train_loss:3.5841 train_time:108202ms step_avg:167.50ms
step:657/1530 train_loss:3.5035 train_time:108373ms step_avg:167.50ms
step:658/1530 train_loss:3.6969 train_time:108543ms step_avg:167.50ms
step:659/1530 train_loss:3.5873 train_time:108713ms step_avg:167.51ms
step:660/1530 train_loss:3.6870 train_time:108883ms step_avg:167.51ms
step:661/1530 train_loss:3.7561 train_time:109056ms step_avg:167.52ms
step:662/1530 train_loss:3.6764 train_time:109228ms step_avg:167.53ms
step:663/1530 train_loss:3.5570 train_time:109397ms step_avg:167.53ms
step:664/1530 train_loss:3.6168 train_time:109569ms step_avg:167.54ms
step:665/1530 train_loss:3.4979 train_time:109740ms step_avg:167.54ms
step:666/1530 train_loss:3.7926 train_time:109911ms step_avg:167.55ms
step:667/1530 train_loss:3.6162 train_time:110080ms step_avg:167.55ms
step:668/1530 train_loss:3.6482 train_time:110254ms step_avg:167.56ms
step:669/1530 train_loss:3.4983 train_time:110424ms step_avg:167.56ms
step:670/1530 train_loss:3.6102 train_time:110594ms step_avg:167.57ms
step:671/1530 train_loss:3.5654 train_time:110764ms step_avg:167.57ms
step:672/1530 train_loss:3.5731 train_time:110938ms step_avg:167.58ms
step:673/1530 train_loss:3.8536 train_time:111109ms step_avg:167.59ms
step:674/1530 train_loss:3.6287 train_time:111279ms step_avg:167.59ms
step:675/1530 train_loss:3.7163 train_time:111453ms step_avg:167.60ms
step:676/1530 train_loss:3.4944 train_time:111625ms step_avg:167.60ms
step:677/1530 train_loss:3.5997 train_time:111796ms step_avg:167.61ms
step:678/1530 train_loss:3.5615 train_time:111966ms step_avg:167.61ms
step:679/1530 train_loss:3.6830 train_time:112138ms step_avg:167.62ms
step:680/1530 train_loss:3.5937 train_time:112307ms step_avg:167.62ms
step:681/1530 train_loss:3.6194 train_time:112480ms step_avg:167.63ms
step:682/1530 train_loss:3.6676 train_time:112656ms step_avg:167.64ms
step:683/1530 train_loss:3.7391 train_time:112828ms step_avg:167.65ms
step:684/1530 train_loss:3.6509 train_time:113000ms step_avg:167.66ms
step:685/1530 train_loss:3.6929 train_time:113175ms step_avg:167.67ms
step:686/1530 train_loss:3.6406 train_time:113349ms step_avg:167.68ms
step:687/1530 train_loss:3.6719 train_time:113520ms step_avg:167.68ms
step:688/1530 train_loss:3.2241 train_time:113696ms step_avg:167.69ms
step:689/1530 train_loss:3.4126 train_time:113870ms step_avg:167.70ms
step:690/1530 train_loss:3.5479 train_time:114043ms step_avg:167.71ms
step:691/1530 train_loss:3.4123 train_time:114215ms step_avg:167.72ms
step:692/1530 train_loss:3.6314 train_time:114387ms step_avg:167.72ms
step:693/1530 train_loss:3.6512 train_time:114559ms step_avg:167.73ms
step:694/1530 train_loss:3.5624 train_time:114734ms step_avg:167.74ms
step:695/1530 train_loss:3.5359 train_time:114903ms step_avg:167.74ms
step:696/1530 train_loss:3.8587 train_time:115077ms step_avg:167.75ms
step:697/1530 train_loss:3.5990 train_time:115250ms step_avg:167.76ms
step:698/1530 train_loss:3.6484 train_time:115421ms step_avg:167.76ms
step:699/1530 train_loss:3.7786 train_time:115596ms step_avg:167.77ms
step:700/1530 train_loss:3.5788 train_time:115768ms step_avg:167.78ms
step:701/1530 train_loss:3.5446 train_time:115941ms step_avg:167.79ms
step:702/1530 train_loss:3.5149 train_time:116113ms step_avg:167.79ms
step:703/1530 train_loss:3.5065 train_time:116285ms step_avg:167.80ms
step:704/1530 train_loss:3.5773 train_time:116456ms step_avg:167.80ms
step:705/1530 train_loss:3.5656 train_time:116632ms step_avg:167.82ms
step:706/1530 train_loss:3.5840 train_time:116809ms step_avg:167.83ms
step:707/1530 train_loss:3.6504 train_time:116984ms step_avg:167.84ms
step:708/1530 train_loss:3.6055 train_time:117157ms step_avg:167.85ms
step:709/1530 train_loss:3.5819 train_time:117332ms step_avg:167.86ms
step:710/1530 train_loss:3.5455 train_time:117501ms step_avg:167.86ms
step:711/1530 train_loss:3.6011 train_time:117675ms step_avg:167.87ms
step:712/1530 train_loss:3.6521 train_time:117850ms step_avg:167.88ms
step:713/1530 train_loss:3.6573 train_time:118027ms step_avg:167.89ms
step:714/1530 train_loss:3.5643 train_time:118198ms step_avg:167.89ms
step:715/1530 train_loss:3.5718 train_time:118370ms step_avg:167.90ms
step:716/1530 train_loss:3.5897 train_time:118541ms step_avg:167.90ms
step:717/1530 train_loss:3.7064 train_time:118716ms step_avg:167.92ms
step:718/1530 train_loss:3.6045 train_time:118888ms step_avg:167.92ms
step:719/1530 train_loss:3.6812 train_time:119061ms step_avg:167.93ms
step:720/1530 train_loss:3.8489 train_time:119237ms step_avg:167.94ms
step:721/1530 train_loss:3.4713 train_time:119410ms step_avg:167.95ms
step:722/1530 train_loss:3.7417 train_time:119582ms step_avg:167.95ms
step:723/1530 train_loss:3.7711 train_time:119754ms step_avg:167.96ms
step:724/1530 train_loss:3.5728 train_time:119927ms step_avg:167.97ms
step:725/1530 train_loss:3.6565 train_time:120099ms step_avg:167.97ms
step:726/1530 train_loss:3.5391 train_time:120274ms step_avg:167.98ms
step:727/1530 train_loss:3.5817 train_time:120449ms step_avg:167.99ms
step:728/1530 train_loss:3.7376 train_time:120622ms step_avg:168.00ms
step:729/1530 train_loss:3.6738 train_time:120794ms step_avg:168.00ms
step:730/1530 train_loss:3.6685 train_time:120966ms step_avg:168.01ms
step:731/1530 train_loss:3.5583 train_time:121139ms step_avg:168.01ms
step:732/1530 train_loss:3.5969 train_time:121309ms step_avg:168.02ms
step:733/1530 train_loss:3.8408 train_time:121482ms step_avg:168.03ms
step:734/1530 train_loss:3.5665 train_time:121658ms step_avg:168.04ms
step:735/1530 train_loss:3.6236 train_time:121831ms step_avg:168.04ms
step:736/1530 train_loss:3.7434 train_time:122004ms step_avg:168.05ms
step:737/1530 train_loss:3.6806 train_time:122176ms step_avg:168.06ms
step:738/1530 train_loss:3.6092 train_time:122348ms step_avg:168.06ms
step:739/1530 train_loss:3.5090 train_time:122519ms step_avg:168.06ms
step:740/1530 train_loss:4.1198 train_time:122696ms step_avg:168.08ms
step:741/1530 train_loss:3.4947 train_time:122867ms step_avg:168.08ms
step:742/1530 train_loss:3.5595 train_time:123041ms step_avg:168.09ms
step:743/1530 train_loss:3.5817 train_time:123213ms step_avg:168.09ms
step:744/1530 train_loss:3.6517 train_time:123386ms step_avg:168.10ms
step:745/1530 train_loss:3.5902 train_time:123559ms step_avg:168.11ms
step:746/1530 train_loss:3.5983 train_time:123731ms step_avg:168.11ms
step:747/1530 train_loss:3.6496 train_time:123904ms step_avg:168.12ms
step:748/1530 train_loss:3.5646 train_time:124080ms step_avg:168.13ms
step:749/1530 train_loss:3.5690 train_time:124254ms step_avg:168.14ms
step:750/1530 train_loss:3.6031 train_time:124423ms step_avg:168.14ms
step:750/1530 val_loss:3.5692 train_time:124474ms step_avg:168.21ms
step:751/1530 train_loss:3.5758 train_time:124598ms step_avg:168.15ms
step:752/1530 train_loss:3.6222 train_time:124771ms step_avg:168.15ms
step:753/1530 train_loss:3.6210 train_time:124943ms step_avg:168.16ms
step:754/1530 train_loss:3.6028 train_time:125116ms step_avg:168.17ms
step:755/1530 train_loss:3.6886 train_time:125423ms step_avg:168.35ms
step:756/1530 train_loss:3.4671 train_time:125605ms step_avg:168.37ms
step:757/1530 train_loss:3.7238 train_time:125778ms step_avg:168.38ms
step:758/1530 train_loss:3.6495 train_time:125947ms step_avg:168.38ms
step:759/1530 train_loss:3.5956 train_time:126268ms step_avg:168.58ms
step:760/1530 train_loss:3.7107 train_time:126439ms step_avg:168.59ms
step:761/1530 train_loss:3.4055 train_time:126611ms step_avg:168.59ms
step:762/1530 train_loss:3.5579 train_time:126784ms step_avg:168.60ms
step:763/1530 train_loss:3.6694 train_time:126957ms step_avg:168.60ms
step:764/1530 train_loss:3.3234 train_time:127131ms step_avg:168.61ms
step:765/1530 train_loss:3.7424 train_time:127302ms step_avg:168.61ms
step:766/1530 train_loss:3.5779 train_time:127478ms step_avg:168.62ms
step:767/1530 train_loss:3.5733 train_time:127650ms step_avg:168.63ms
step:768/1530 train_loss:3.5714 train_time:127822ms step_avg:168.63ms
step:769/1530 train_loss:3.5938 train_time:127996ms step_avg:168.64ms
step:770/1530 train_loss:3.6366 train_time:128166ms step_avg:168.64ms
step:771/1530 train_loss:3.8919 train_time:128339ms step_avg:168.65ms
step:772/1530 train_loss:3.4513 train_time:128511ms step_avg:168.65ms
step:773/1530 train_loss:3.6312 train_time:128682ms step_avg:168.65ms
step:774/1530 train_loss:3.6478 train_time:128855ms step_avg:168.66ms
step:775/1530 train_loss:3.6176 train_time:129025ms step_avg:168.66ms
step:776/1530 train_loss:3.4188 train_time:129199ms step_avg:168.67ms
step:777/1530 train_loss:3.3903 train_time:129373ms step_avg:168.67ms
step:778/1530 train_loss:3.5007 train_time:129545ms step_avg:168.68ms
step:779/1530 train_loss:3.5784 train_time:129717ms step_avg:168.68ms
step:780/1530 train_loss:3.5911 train_time:129888ms step_avg:168.69ms
step:781/1530 train_loss:3.6798 train_time:130061ms step_avg:168.69ms
step:782/1530 train_loss:3.5971 train_time:130232ms step_avg:168.69ms
step:783/1530 train_loss:3.5759 train_time:130404ms step_avg:168.70ms
step:784/1530 train_loss:3.6022 train_time:130577ms step_avg:168.70ms
step:785/1530 train_loss:3.5610 train_time:130748ms step_avg:168.71ms
step:786/1530 train_loss:3.4409 train_time:130920ms step_avg:168.71ms
step:787/1530 train_loss:3.7470 train_time:131092ms step_avg:168.72ms
step:788/1530 train_loss:3.5049 train_time:131265ms step_avg:168.72ms
step:789/1530 train_loss:3.5506 train_time:131436ms step_avg:168.72ms
step:790/1530 train_loss:3.6299 train_time:131610ms step_avg:168.73ms
step:791/1530 train_loss:3.7740 train_time:131786ms step_avg:168.74ms
step:792/1530 train_loss:3.7635 train_time:131959ms step_avg:168.75ms
step:793/1530 train_loss:3.4554 train_time:132130ms step_avg:168.75ms
step:794/1530 train_loss:3.6004 train_time:132303ms step_avg:168.75ms
step:795/1530 train_loss:3.6776 train_time:132480ms step_avg:168.76ms
step:796/1530 train_loss:3.7724 train_time:132658ms step_avg:168.78ms
step:797/1530 train_loss:3.5302 train_time:132832ms step_avg:168.78ms
step:798/1530 train_loss:3.6518 train_time:133008ms step_avg:168.79ms
step:799/1530 train_loss:3.5417 train_time:133185ms step_avg:168.80ms
step:800/1530 train_loss:3.5384 train_time:133358ms step_avg:168.81ms
step:801/1530 train_loss:3.6320 train_time:133534ms step_avg:168.82ms
step:802/1530 train_loss:3.5032 train_time:133712ms step_avg:168.83ms
step:803/1530 train_loss:3.4939 train_time:133884ms step_avg:168.83ms
step:804/1530 train_loss:3.6286 train_time:134059ms step_avg:168.84ms
step:805/1530 train_loss:3.5244 train_time:134235ms step_avg:168.85ms
step:806/1530 train_loss:3.5692 train_time:134407ms step_avg:168.85ms
step:807/1530 train_loss:3.6465 train_time:134580ms step_avg:168.86ms
step:808/1530 train_loss:3.5443 train_time:134757ms step_avg:168.87ms
step:809/1530 train_loss:3.4963 train_time:134929ms step_avg:168.87ms
step:810/1530 train_loss:3.5700 train_time:135101ms step_avg:168.88ms
step:811/1530 train_loss:3.5808 train_time:135277ms step_avg:168.89ms
step:812/1530 train_loss:3.6048 train_time:135449ms step_avg:168.89ms
step:813/1530 train_loss:3.6279 train_time:135621ms step_avg:168.89ms
step:814/1530 train_loss:3.5650 train_time:135796ms step_avg:168.90ms
step:815/1530 train_loss:3.5676 train_time:135969ms step_avg:168.91ms
step:816/1530 train_loss:3.6856 train_time:136144ms step_avg:168.91ms
step:817/1530 train_loss:3.7732 train_time:136318ms step_avg:168.92ms
step:818/1530 train_loss:3.5277 train_time:136491ms step_avg:168.92ms
step:819/1530 train_loss:3.7227 train_time:136666ms step_avg:168.93ms
step:820/1530 train_loss:3.4995 train_time:136841ms step_avg:168.94ms
step:821/1530 train_loss:3.5689 train_time:137013ms step_avg:168.94ms
step:822/1530 train_loss:3.7040 train_time:137190ms step_avg:168.95ms
step:823/1530 train_loss:3.5776 train_time:137364ms step_avg:168.96ms
step:824/1530 train_loss:3.5151 train_time:137537ms step_avg:168.96ms
step:825/1530 train_loss:3.6227 train_time:137710ms step_avg:168.97ms
step:826/1530 train_loss:3.4778 train_time:137886ms step_avg:168.98ms
step:827/1530 train_loss:3.7381 train_time:138060ms step_avg:168.98ms
step:828/1530 train_loss:3.6267 train_time:138235ms step_avg:168.99ms
step:829/1530 train_loss:3.6350 train_time:138410ms step_avg:169.00ms
step:830/1530 train_loss:3.5443 train_time:138586ms step_avg:169.01ms
step:831/1530 train_loss:3.5988 train_time:138760ms step_avg:169.01ms
step:832/1530 train_loss:3.5157 train_time:138935ms step_avg:169.02ms
step:833/1530 train_loss:3.6541 train_time:139109ms step_avg:169.03ms
step:834/1530 train_loss:3.4792 train_time:139283ms step_avg:169.03ms
step:835/1530 train_loss:3.4636 train_time:139458ms step_avg:169.04ms
step:836/1530 train_loss:3.7183 train_time:139634ms step_avg:169.05ms
step:837/1530 train_loss:3.4012 train_time:139806ms step_avg:169.05ms
step:838/1530 train_loss:3.5957 train_time:139981ms step_avg:169.06ms
step:839/1530 train_loss:3.4297 train_time:140155ms step_avg:169.06ms
step:840/1530 train_loss:3.4695 train_time:140326ms step_avg:169.07ms
step:841/1530 train_loss:3.5756 train_time:140500ms step_avg:169.07ms
step:842/1530 train_loss:3.5874 train_time:140678ms step_avg:169.08ms
step:843/1530 train_loss:3.5681 train_time:140850ms step_avg:169.09ms
step:844/1530 train_loss:3.4359 train_time:141022ms step_avg:169.09ms
step:845/1530 train_loss:3.6711 train_time:141197ms step_avg:169.10ms
step:846/1530 train_loss:3.5191 train_time:141372ms step_avg:169.11ms
step:847/1530 train_loss:3.5014 train_time:141546ms step_avg:169.11ms
step:848/1530 train_loss:3.6463 train_time:141719ms step_avg:169.12ms
step:849/1530 train_loss:3.4942 train_time:141894ms step_avg:169.12ms
step:850/1530 train_loss:3.4459 train_time:142068ms step_avg:169.13ms
step:851/1530 train_loss:3.7348 train_time:142243ms step_avg:169.14ms
step:852/1530 train_loss:3.4463 train_time:142416ms step_avg:169.14ms
step:853/1530 train_loss:3.5724 train_time:142588ms step_avg:169.14ms
step:854/1530 train_loss:3.6566 train_time:142763ms step_avg:169.15ms
step:855/1530 train_loss:3.5191 train_time:142936ms step_avg:169.15ms
step:856/1530 train_loss:3.5511 train_time:143109ms step_avg:169.16ms
step:857/1530 train_loss:3.6089 train_time:143283ms step_avg:169.17ms
step:858/1530 train_loss:3.4742 train_time:143460ms step_avg:169.17ms
step:859/1530 train_loss:3.5686 train_time:143635ms step_avg:169.18ms
step:860/1530 train_loss:3.5930 train_time:143806ms step_avg:169.18ms
step:861/1530 train_loss:3.6419 train_time:143985ms step_avg:169.19ms
step:862/1530 train_loss:3.6132 train_time:144163ms step_avg:169.20ms
step:863/1530 train_loss:3.5775 train_time:144338ms step_avg:169.21ms
step:864/1530 train_loss:3.3853 train_time:144512ms step_avg:169.22ms
step:865/1530 train_loss:3.6076 train_time:144684ms step_avg:169.22ms
step:866/1530 train_loss:3.8810 train_time:144861ms step_avg:169.23ms
step:867/1530 train_loss:3.4597 train_time:145034ms step_avg:169.23ms
step:868/1530 train_loss:3.6495 train_time:145206ms step_avg:169.24ms
step:869/1530 train_loss:3.6241 train_time:145380ms step_avg:169.24ms
step:870/1530 train_loss:3.4507 train_time:145556ms step_avg:169.25ms
step:871/1530 train_loss:3.3992 train_time:145728ms step_avg:169.25ms
step:872/1530 train_loss:3.6547 train_time:145903ms step_avg:169.26ms
step:873/1530 train_loss:3.4645 train_time:146079ms step_avg:169.27ms
step:874/1530 train_loss:3.2256 train_time:146259ms step_avg:169.28ms
step:875/1530 train_loss:3.6357 train_time:146433ms step_avg:169.29ms
step:875/1530 val_loss:3.5261 train_time:146483ms step_avg:169.34ms
step:876/1530 train_loss:3.4432 train_time:146606ms step_avg:169.29ms
step:877/1530 train_loss:3.6203 train_time:146781ms step_avg:169.30ms
step:878/1530 train_loss:3.4719 train_time:146956ms step_avg:169.30ms
step:879/1530 train_loss:3.6544 train_time:147128ms step_avg:169.31ms
step:880/1530 train_loss:3.3204 train_time:147300ms step_avg:169.31ms
step:881/1530 train_loss:3.4850 train_time:147473ms step_avg:169.31ms
step:882/1530 train_loss:3.7013 train_time:147648ms step_avg:169.32ms
step:883/1530 train_loss:3.8451 train_time:147821ms step_avg:169.33ms
step:884/1530 train_loss:3.5731 train_time:147995ms step_avg:169.33ms
step:885/1530 train_loss:3.4987 train_time:148168ms step_avg:169.33ms
step:886/1530 train_loss:3.5768 train_time:148343ms step_avg:169.34ms
step:887/1530 train_loss:4.0952 train_time:148517ms step_avg:169.35ms
step:888/1530 train_loss:3.8393 train_time:148695ms step_avg:169.36ms
step:889/1530 train_loss:3.5281 train_time:148868ms step_avg:169.36ms
step:890/1530 train_loss:3.5344 train_time:149042ms step_avg:169.37ms
step:891/1530 train_loss:3.3596 train_time:149215ms step_avg:169.37ms
step:892/1530 train_loss:3.7203 train_time:149388ms step_avg:169.37ms
step:893/1530 train_loss:3.4257 train_time:149560ms step_avg:169.38ms
step:894/1530 train_loss:3.6419 train_time:149735ms step_avg:169.38ms
step:895/1530 train_loss:3.6797 train_time:149909ms step_avg:169.39ms
step:896/1530 train_loss:3.4989 train_time:150084ms step_avg:169.39ms
step:897/1530 train_loss:3.5449 train_time:150259ms step_avg:169.40ms
step:898/1530 train_loss:3.5951 train_time:150433ms step_avg:169.41ms
step:899/1530 train_loss:3.4851 train_time:150605ms step_avg:169.41ms
step:900/1530 train_loss:3.4270 train_time:150779ms step_avg:169.41ms
step:901/1530 train_loss:3.6189 train_time:150950ms step_avg:169.42ms
step:902/1530 train_loss:3.6354 train_time:151122ms step_avg:169.42ms
step:903/1530 train_loss:3.5430 train_time:151298ms step_avg:169.43ms
step:904/1530 train_loss:3.4925 train_time:151471ms step_avg:169.43ms
step:905/1530 train_loss:3.5047 train_time:151642ms step_avg:169.43ms
step:906/1530 train_loss:3.7122 train_time:151815ms step_avg:169.44ms
step:907/1530 train_loss:3.5218 train_time:151990ms step_avg:169.44ms
step:908/1530 train_loss:3.5693 train_time:152163ms step_avg:169.45ms
step:909/1530 train_loss:3.4631 train_time:152337ms step_avg:169.45ms
step:910/1530 train_loss:3.5420 train_time:152515ms step_avg:169.46ms
step:911/1530 train_loss:3.6480 train_time:152691ms step_avg:169.47ms
step:912/1530 train_loss:3.5976 train_time:152868ms step_avg:169.48ms
step:913/1530 train_loss:3.4693 train_time:153046ms step_avg:169.49ms
step:914/1530 train_loss:3.7489 train_time:153223ms step_avg:169.49ms
step:915/1530 train_loss:3.5336 train_time:153405ms step_avg:169.51ms
step:916/1530 train_loss:3.6196 train_time:153581ms step_avg:169.52ms
step:917/1530 train_loss:3.6097 train_time:153753ms step_avg:169.52ms
step:918/1530 train_loss:4.8330 train_time:153932ms step_avg:169.53ms
step:919/1530 train_loss:3.5101 train_time:154110ms step_avg:169.54ms
step:920/1530 train_loss:3.5898 train_time:154285ms step_avg:169.54ms
step:921/1530 train_loss:3.5541 train_time:154463ms step_avg:169.55ms
step:922/1530 train_loss:3.5838 train_time:154641ms step_avg:169.56ms
step:923/1530 train_loss:3.6121 train_time:154817ms step_avg:169.57ms
step:924/1530 train_loss:3.6828 train_time:154994ms step_avg:169.58ms
step:925/1530 train_loss:3.6519 train_time:155169ms step_avg:169.58ms
step:926/1530 train_loss:3.5570 train_time:155343ms step_avg:169.59ms
step:927/1530 train_loss:3.5613 train_time:155518ms step_avg:169.59ms
step:928/1530 train_loss:3.7805 train_time:155695ms step_avg:169.60ms
step:929/1530 train_loss:3.6145 train_time:155869ms step_avg:169.61ms
step:930/1530 train_loss:3.4074 train_time:156046ms step_avg:169.62ms
step:931/1530 train_loss:3.5012 train_time:156221ms step_avg:169.62ms
step:932/1530 train_loss:3.6495 train_time:156399ms step_avg:169.63ms
step:933/1530 train_loss:3.3746 train_time:156576ms step_avg:169.64ms
step:934/1530 train_loss:3.5918 train_time:156755ms step_avg:169.65ms
step:935/1530 train_loss:3.4447 train_time:156933ms step_avg:169.66ms
step:936/1530 train_loss:3.5209 train_time:157111ms step_avg:169.67ms
step:937/1530 train_loss:3.6292 train_time:157290ms step_avg:169.68ms
step:938/1530 train_loss:3.5504 train_time:157463ms step_avg:169.68ms
step:939/1530 train_loss:3.6773 train_time:157643ms step_avg:169.69ms
step:940/1530 train_loss:3.4802 train_time:157819ms step_avg:169.70ms
step:941/1530 train_loss:3.5533 train_time:157993ms step_avg:169.70ms
step:942/1530 train_loss:3.3567 train_time:158171ms step_avg:169.71ms
step:943/1530 train_loss:3.7169 train_time:158351ms step_avg:169.72ms
step:944/1530 train_loss:3.4042 train_time:158666ms step_avg:169.88ms
step:945/1530 train_loss:3.4283 train_time:158850ms step_avg:169.89ms
step:946/1530 train_loss:5.0995 train_time:159029ms step_avg:169.90ms
step:947/1530 train_loss:3.6010 train_time:159205ms step_avg:169.91ms
step:948/1530 train_loss:3.4927 train_time:159379ms step_avg:169.91ms
step:949/1530 train_loss:3.3784 train_time:159706ms step_avg:170.08ms
step:950/1530 train_loss:3.4423 train_time:159881ms step_avg:170.09ms
step:951/1530 train_loss:3.4160 train_time:160061ms step_avg:170.10ms
step:952/1530 train_loss:3.4821 train_time:160235ms step_avg:170.10ms
step:953/1530 train_loss:3.5712 train_time:160414ms step_avg:170.11ms
step:954/1530 train_loss:3.4463 train_time:160592ms step_avg:170.12ms
step:955/1530 train_loss:3.4782 train_time:160768ms step_avg:170.12ms
step:956/1530 train_loss:3.4508 train_time:160944ms step_avg:170.13ms
step:957/1530 train_loss:3.4976 train_time:161122ms step_avg:170.14ms
step:958/1530 train_loss:3.5083 train_time:161301ms step_avg:170.15ms
step:959/1530 train_loss:3.5103 train_time:161476ms step_avg:170.15ms
step:960/1530 train_loss:3.4132 train_time:161652ms step_avg:170.16ms
step:961/1530 train_loss:3.6503 train_time:161827ms step_avg:170.16ms
step:962/1530 train_loss:3.5967 train_time:162002ms step_avg:170.17ms
step:963/1530 train_loss:3.4695 train_time:162177ms step_avg:170.18ms
step:964/1530 train_loss:3.4344 train_time:162355ms step_avg:170.18ms
step:965/1530 train_loss:3.4771 train_time:162529ms step_avg:170.19ms
step:966/1530 train_loss:3.7093 train_time:162704ms step_avg:170.19ms
step:967/1530 train_loss:3.5250 train_time:162880ms step_avg:170.20ms
step:968/1530 train_loss:3.5140 train_time:163055ms step_avg:170.20ms
step:969/1530 train_loss:3.5836 train_time:163229ms step_avg:170.21ms
step:970/1530 train_loss:3.3783 train_time:163402ms step_avg:170.21ms
step:971/1530 train_loss:3.5408 train_time:163576ms step_avg:170.21ms
step:972/1530 train_loss:3.4751 train_time:163748ms step_avg:170.22ms
step:973/1530 train_loss:3.5395 train_time:163923ms step_avg:170.22ms
step:974/1530 train_loss:3.5914 train_time:164100ms step_avg:170.23ms
step:975/1530 train_loss:3.4664 train_time:164274ms step_avg:170.23ms
step:976/1530 train_loss:3.6714 train_time:164448ms step_avg:170.24ms
step:977/1530 train_loss:3.5748 train_time:164622ms step_avg:170.24ms
step:978/1530 train_loss:3.3622 train_time:164797ms step_avg:170.24ms
step:979/1530 train_loss:3.6309 train_time:164972ms step_avg:170.25ms
step:980/1530 train_loss:3.4189 train_time:165148ms step_avg:170.26ms
step:981/1530 train_loss:3.5748 train_time:165325ms step_avg:170.26ms
step:982/1530 train_loss:3.5514 train_time:165501ms step_avg:170.27ms
step:983/1530 train_loss:3.5182 train_time:165677ms step_avg:170.27ms
step:984/1530 train_loss:3.5000 train_time:165852ms step_avg:170.28ms
step:985/1530 train_loss:3.5708 train_time:166028ms step_avg:170.29ms
step:986/1530 train_loss:3.4143 train_time:166203ms step_avg:170.29ms
step:987/1530 train_loss:3.4860 train_time:166376ms step_avg:170.29ms
step:988/1530 train_loss:3.4823 train_time:166550ms step_avg:170.30ms
step:989/1530 train_loss:3.4235 train_time:166723ms step_avg:170.30ms
step:990/1530 train_loss:3.6614 train_time:166900ms step_avg:170.31ms
step:991/1530 train_loss:3.4720 train_time:167073ms step_avg:170.31ms
step:992/1530 train_loss:3.4461 train_time:167254ms step_avg:170.32ms
step:993/1530 train_loss:3.5031 train_time:167432ms step_avg:170.33ms
step:994/1530 train_loss:3.5989 train_time:167606ms step_avg:170.33ms
step:995/1530 train_loss:3.5317 train_time:167780ms step_avg:170.33ms
step:996/1530 train_loss:3.4592 train_time:167952ms step_avg:170.34ms
step:997/1530 train_loss:3.7599 train_time:168127ms step_avg:170.34ms
step:998/1530 train_loss:3.4395 train_time:168300ms step_avg:170.34ms
step:999/1530 train_loss:3.5853 train_time:168474ms step_avg:170.35ms
step:1000/1530 train_loss:3.4445 train_time:168652ms step_avg:170.36ms
step:1000/1530 val_loss:3.4706 train_time:168704ms step_avg:170.41ms
step:1001/1530 train_loss:3.5037 train_time:168830ms step_avg:170.36ms
step:1002/1530 train_loss:3.3802 train_time:169004ms step_avg:170.37ms
step:1003/1530 train_loss:3.5612 train_time:169181ms step_avg:170.37ms
step:1004/1530 train_loss:3.6097 train_time:169357ms step_avg:170.38ms
step:1005/1530 train_loss:3.4029 train_time:169532ms step_avg:170.38ms
step:1006/1530 train_loss:3.4714 train_time:169708ms step_avg:170.39ms
step:1007/1530 train_loss:3.4465 train_time:169885ms step_avg:170.40ms
step:1008/1530 train_loss:3.5618 train_time:170061ms step_avg:170.40ms
step:1009/1530 train_loss:3.6683 train_time:170239ms step_avg:170.41ms
step:1010/1530 train_loss:3.5627 train_time:170411ms step_avg:170.41ms
step:1011/1530 train_loss:3.5397 train_time:170585ms step_avg:170.41ms
step:1012/1530 train_loss:3.3923 train_time:170760ms step_avg:170.42ms
step:1013/1530 train_loss:3.5376 train_time:170936ms step_avg:170.42ms
step:1014/1530 train_loss:3.6227 train_time:171112ms step_avg:170.43ms
step:1015/1530 train_loss:3.3325 train_time:171291ms step_avg:170.44ms
step:1016/1530 train_loss:3.4117 train_time:171464ms step_avg:170.44ms
step:1017/1530 train_loss:3.3993 train_time:171640ms step_avg:170.45ms
step:1018/1530 train_loss:3.3996 train_time:171816ms step_avg:170.45ms
step:1019/1530 train_loss:3.5232 train_time:171992ms step_avg:170.46ms
step:1020/1530 train_loss:3.3779 train_time:172167ms step_avg:170.46ms
step:1021/1530 train_loss:3.3583 train_time:172340ms step_avg:170.46ms
step:1022/1530 train_loss:3.4826 train_time:172516ms step_avg:170.47ms
step:1023/1530 train_loss:3.5044 train_time:172694ms step_avg:170.48ms
step:1024/1530 train_loss:3.4829 train_time:172872ms step_avg:170.49ms
step:1025/1530 train_loss:3.4766 train_time:173050ms step_avg:170.49ms
step:1026/1530 train_loss:3.6194 train_time:173225ms step_avg:170.50ms
step:1027/1530 train_loss:3.3258 train_time:173401ms step_avg:170.50ms
step:1028/1530 train_loss:3.4005 train_time:173580ms step_avg:170.51ms
step:1029/1530 train_loss:3.3105 train_time:173760ms step_avg:170.52ms
step:1030/1530 train_loss:3.5445 train_time:173936ms step_avg:170.53ms
step:1031/1530 train_loss:3.5130 train_time:174112ms step_avg:170.53ms
step:1032/1530 train_loss:3.7011 train_time:174295ms step_avg:170.54ms
step:1033/1530 train_loss:3.4935 train_time:174471ms step_avg:170.55ms
step:1034/1530 train_loss:3.4016 train_time:174646ms step_avg:170.55ms
step:1035/1530 train_loss:3.4519 train_time:174823ms step_avg:170.56ms
step:1036/1530 train_loss:3.4866 train_time:174999ms step_avg:170.56ms
step:1037/1530 train_loss:3.7927 train_time:175176ms step_avg:170.57ms
step:1038/1530 train_loss:3.6226 train_time:175355ms step_avg:170.58ms
step:1039/1530 train_loss:3.5115 train_time:175535ms step_avg:170.59ms
step:1040/1530 train_loss:3.4168 train_time:175711ms step_avg:170.59ms
step:1041/1530 train_loss:3.4935 train_time:175889ms step_avg:170.60ms
step:1042/1530 train_loss:3.5229 train_time:176062ms step_avg:170.60ms
step:1043/1530 train_loss:3.4477 train_time:176237ms step_avg:170.61ms
step:1044/1530 train_loss:3.4607 train_time:176413ms step_avg:170.61ms
step:1045/1530 train_loss:3.5156 train_time:176592ms step_avg:170.62ms
step:1046/1530 train_loss:3.4243 train_time:176767ms step_avg:170.62ms
step:1047/1530 train_loss:3.6354 train_time:176943ms step_avg:170.63ms
step:1048/1530 train_loss:3.4995 train_time:177119ms step_avg:170.63ms
step:1049/1530 train_loss:3.4094 train_time:177295ms step_avg:170.64ms
step:1050/1530 train_loss:3.3943 train_time:177474ms step_avg:170.65ms
step:1051/1530 train_loss:3.4984 train_time:177650ms step_avg:170.65ms
step:1052/1530 train_loss:3.3614 train_time:177825ms step_avg:170.66ms
step:1053/1530 train_loss:3.6935 train_time:178003ms step_avg:170.66ms
step:1054/1530 train_loss:3.5442 train_time:178181ms step_avg:170.67ms
step:1055/1530 train_loss:3.3832 train_time:178356ms step_avg:170.68ms
step:1056/1530 train_loss:3.4998 train_time:178531ms step_avg:170.68ms
step:1057/1530 train_loss:3.5820 train_time:178709ms step_avg:170.69ms
step:1058/1530 train_loss:3.3091 train_time:178887ms step_avg:170.69ms
step:1059/1530 train_loss:3.3746 train_time:179069ms step_avg:170.70ms
step:1060/1530 train_loss:3.4399 train_time:179244ms step_avg:170.71ms
step:1061/1530 train_loss:3.4223 train_time:179419ms step_avg:170.71ms
step:1062/1530 train_loss:3.3863 train_time:179595ms step_avg:170.72ms
step:1063/1530 train_loss:3.4621 train_time:179771ms step_avg:170.72ms
step:1064/1530 train_loss:3.3875 train_time:179944ms step_avg:170.73ms
step:1065/1530 train_loss:3.3685 train_time:180121ms step_avg:170.73ms
step:1066/1530 train_loss:3.4128 train_time:180298ms step_avg:170.74ms
step:1067/1530 train_loss:3.2774 train_time:180478ms step_avg:170.75ms
step:1068/1530 train_loss:3.4371 train_time:180653ms step_avg:170.75ms
step:1069/1530 train_loss:3.2998 train_time:180834ms step_avg:170.76ms
step:1070/1530 train_loss:3.5728 train_time:181009ms step_avg:170.76ms
step:1071/1530 train_loss:3.5130 train_time:181187ms step_avg:170.77ms
step:1072/1530 train_loss:3.4410 train_time:181362ms step_avg:170.77ms
step:1073/1530 train_loss:3.5264 train_time:181536ms step_avg:170.78ms
step:1074/1530 train_loss:3.4330 train_time:181714ms step_avg:170.78ms
step:1075/1530 train_loss:3.4046 train_time:181891ms step_avg:170.79ms
step:1076/1530 train_loss:3.7974 train_time:182067ms step_avg:170.79ms
step:1077/1530 train_loss:3.4362 train_time:182240ms step_avg:170.80ms
step:1078/1530 train_loss:3.0921 train_time:182425ms step_avg:170.81ms
step:1079/1530 train_loss:3.5352 train_time:182602ms step_avg:170.82ms
step:1080/1530 train_loss:3.4288 train_time:182779ms step_avg:170.82ms
step:1081/1530 train_loss:3.5067 train_time:182953ms step_avg:170.82ms
step:1082/1530 train_loss:3.5958 train_time:183129ms step_avg:170.83ms
step:1083/1530 train_loss:3.4917 train_time:183303ms step_avg:170.83ms
step:1084/1530 train_loss:3.4693 train_time:183480ms step_avg:170.84ms
step:1085/1530 train_loss:3.4340 train_time:183655ms step_avg:170.84ms
step:1086/1530 train_loss:3.6264 train_time:183831ms step_avg:170.85ms
step:1087/1530 train_loss:3.5075 train_time:184005ms step_avg:170.85ms
step:1088/1530 train_loss:3.3726 train_time:184183ms step_avg:170.86ms
step:1089/1530 train_loss:3.3740 train_time:184362ms step_avg:170.86ms
step:1090/1530 train_loss:3.4846 train_time:184540ms step_avg:170.87ms
step:1091/1530 train_loss:3.2867 train_time:184717ms step_avg:170.88ms
step:1092/1530 train_loss:3.4873 train_time:184894ms step_avg:170.88ms
step:1093/1530 train_loss:3.6040 train_time:185073ms step_avg:170.89ms
step:1094/1530 train_loss:3.4480 train_time:185250ms step_avg:170.89ms
step:1095/1530 train_loss:3.4229 train_time:185424ms step_avg:170.90ms
step:1096/1530 train_loss:3.4273 train_time:185602ms step_avg:170.90ms
step:1097/1530 train_loss:3.4940 train_time:185780ms step_avg:170.91ms
step:1098/1530 train_loss:3.5668 train_time:185958ms step_avg:170.92ms
step:1099/1530 train_loss:3.5283 train_time:186135ms step_avg:170.92ms
step:1100/1530 train_loss:3.4307 train_time:186313ms step_avg:170.93ms
step:1101/1530 train_loss:3.2908 train_time:186492ms step_avg:170.94ms
step:1102/1530 train_loss:3.3072 train_time:186670ms step_avg:170.94ms
step:1103/1530 train_loss:3.4506 train_time:186854ms step_avg:170.95ms
step:1104/1530 train_loss:3.3221 train_time:187030ms step_avg:170.96ms
step:1105/1530 train_loss:4.0613 train_time:187209ms step_avg:170.97ms
step:1106/1530 train_loss:3.2247 train_time:187385ms step_avg:170.97ms
step:1107/1530 train_loss:3.5702 train_time:187560ms step_avg:170.98ms
step:1108/1530 train_loss:3.3500 train_time:187735ms step_avg:170.98ms
step:1109/1530 train_loss:3.5035 train_time:187910ms step_avg:170.98ms
step:1110/1530 train_loss:3.4293 train_time:188084ms step_avg:170.99ms
step:1111/1530 train_loss:3.4841 train_time:188259ms step_avg:170.99ms
step:1112/1530 train_loss:3.5634 train_time:188438ms step_avg:171.00ms
step:1113/1530 train_loss:3.4332 train_time:188622ms step_avg:171.01ms
step:1114/1530 train_loss:3.3720 train_time:188802ms step_avg:171.02ms
step:1115/1530 train_loss:3.2452 train_time:188979ms step_avg:171.02ms
step:1116/1530 train_loss:3.4322 train_time:189153ms step_avg:171.02ms
step:1117/1530 train_loss:3.5961 train_time:189331ms step_avg:171.03ms
step:1118/1530 train_loss:3.6264 train_time:189508ms step_avg:171.04ms
step:1119/1530 train_loss:3.4827 train_time:189683ms step_avg:171.04ms
step:1120/1530 train_loss:3.4958 train_time:189860ms step_avg:171.05ms
step:1121/1530 train_loss:3.3942 train_time:190037ms step_avg:171.05ms
step:1122/1530 train_loss:3.4614 train_time:190213ms step_avg:171.06ms
step:1123/1530 train_loss:3.5804 train_time:190390ms step_avg:171.06ms
step:1124/1530 train_loss:3.3416 train_time:190563ms step_avg:171.06ms
step:1125/1530 train_loss:3.2357 train_time:190739ms step_avg:171.07ms
step:1125/1530 val_loss:3.4139 train_time:190789ms step_avg:171.11ms
step:1126/1530 train_loss:3.4860 train_time:190916ms step_avg:171.07ms
step:1127/1530 train_loss:3.6726 train_time:191095ms step_avg:171.08ms
step:1128/1530 train_loss:3.2337 train_time:191273ms step_avg:171.08ms
step:1129/1530 train_loss:3.5600 train_time:191451ms step_avg:171.09ms
step:1130/1530 train_loss:3.3828 train_time:191631ms step_avg:171.10ms
step:1131/1530 train_loss:3.4064 train_time:191813ms step_avg:171.11ms
step:1132/1530 train_loss:3.3678 train_time:191986ms step_avg:171.11ms
step:1133/1530 train_loss:3.4904 train_time:192296ms step_avg:171.23ms
step:1134/1530 train_loss:3.4480 train_time:192484ms step_avg:171.25ms
step:1135/1530 train_loss:3.5246 train_time:192661ms step_avg:171.25ms
step:1136/1530 train_loss:3.5655 train_time:192839ms step_avg:171.26ms
step:1137/1530 train_loss:3.4616 train_time:193016ms step_avg:171.27ms
step:1138/1530 train_loss:3.3572 train_time:193195ms step_avg:171.27ms
step:1139/1530 train_loss:3.6593 train_time:193520ms step_avg:171.41ms
step:1140/1530 train_loss:3.4614 train_time:193697ms step_avg:171.41ms
step:1141/1530 train_loss:3.5960 train_time:193879ms step_avg:171.42ms
step:1142/1530 train_loss:3.4469 train_time:194055ms step_avg:171.43ms
step:1143/1530 train_loss:3.3700 train_time:194235ms step_avg:171.43ms
step:1144/1530 train_loss:3.4467 train_time:194412ms step_avg:171.44ms
step:1145/1530 train_loss:3.5949 train_time:194586ms step_avg:171.44ms
step:1146/1530 train_loss:3.5625 train_time:194767ms step_avg:171.45ms
step:1147/1530 train_loss:3.4961 train_time:194945ms step_avg:171.46ms
step:1148/1530 train_loss:3.4997 train_time:195123ms step_avg:171.46ms
step:1149/1530 train_loss:3.3302 train_time:195304ms step_avg:171.47ms
step:1150/1530 train_loss:3.3804 train_time:195480ms step_avg:171.47ms
step:1151/1530 train_loss:3.3237 train_time:195658ms step_avg:171.48ms
step:1152/1530 train_loss:3.4015 train_time:195839ms step_avg:171.49ms
step:1153/1530 train_loss:3.4381 train_time:196018ms step_avg:171.49ms
step:1154/1530 train_loss:3.5177 train_time:196194ms step_avg:171.50ms
step:1155/1530 train_loss:3.3256 train_time:196375ms step_avg:171.51ms
step:1156/1530 train_loss:3.5374 train_time:196558ms step_avg:171.52ms
step:1157/1530 train_loss:3.4990 train_time:196736ms step_avg:171.52ms
step:1158/1530 train_loss:3.2542 train_time:196912ms step_avg:171.53ms
step:1159/1530 train_loss:3.3521 train_time:197090ms step_avg:171.53ms
step:1160/1530 train_loss:3.3376 train_time:197266ms step_avg:171.54ms
step:1161/1530 train_loss:3.0924 train_time:197447ms step_avg:171.54ms
step:1162/1530 train_loss:3.4258 train_time:197625ms step_avg:171.55ms
step:1163/1530 train_loss:3.3913 train_time:197804ms step_avg:171.56ms
step:1164/1530 train_loss:3.2983 train_time:197981ms step_avg:171.56ms
step:1165/1530 train_loss:3.2549 train_time:198155ms step_avg:171.56ms
step:1166/1530 train_loss:3.3884 train_time:198335ms step_avg:171.57ms
step:1167/1530 train_loss:3.4135 train_time:198511ms step_avg:171.57ms
step:1168/1530 train_loss:3.7243 train_time:198687ms step_avg:171.58ms
step:1169/1530 train_loss:3.3805 train_time:198865ms step_avg:171.58ms
step:1170/1530 train_loss:3.3973 train_time:199043ms step_avg:171.59ms
step:1171/1530 train_loss:3.2918 train_time:199221ms step_avg:171.59ms
step:1172/1530 train_loss:3.4259 train_time:199394ms step_avg:171.60ms
step:1173/1530 train_loss:3.5441 train_time:199575ms step_avg:171.60ms
step:1174/1530 train_loss:3.3851 train_time:199761ms step_avg:171.62ms
step:1175/1530 train_loss:3.3676 train_time:199941ms step_avg:171.62ms
step:1176/1530 train_loss:3.4270 train_time:200121ms step_avg:171.63ms
step:1177/1530 train_loss:3.4513 train_time:200302ms step_avg:171.64ms
step:1178/1530 train_loss:3.5007 train_time:200480ms step_avg:171.64ms
step:1179/1530 train_loss:3.4056 train_time:200655ms step_avg:171.65ms
step:1180/1530 train_loss:3.3637 train_time:200843ms step_avg:171.66ms
step:1181/1530 train_loss:3.3410 train_time:201021ms step_avg:171.67ms
step:1182/1530 train_loss:3.3794 train_time:201201ms step_avg:171.67ms
step:1183/1530 train_loss:3.3375 train_time:201377ms step_avg:171.68ms
step:1184/1530 train_loss:3.5097 train_time:201554ms step_avg:171.68ms
step:1185/1530 train_loss:3.5459 train_time:201734ms step_avg:171.69ms
step:1186/1530 train_loss:3.3693 train_time:201914ms step_avg:171.70ms
step:1187/1530 train_loss:3.4216 train_time:202100ms step_avg:171.71ms
step:1188/1530 train_loss:3.4412 train_time:202275ms step_avg:171.71ms
step:1189/1530 train_loss:3.2805 train_time:202455ms step_avg:171.72ms
step:1190/1530 train_loss:3.4452 train_time:202634ms step_avg:171.72ms
step:1191/1530 train_loss:3.5875 train_time:202814ms step_avg:171.73ms
step:1192/1530 train_loss:3.3949 train_time:202989ms step_avg:171.73ms
step:1193/1530 train_loss:3.2790 train_time:203165ms step_avg:171.74ms
step:1194/1530 train_loss:3.5584 train_time:203342ms step_avg:171.74ms
step:1195/1530 train_loss:3.3743 train_time:203525ms step_avg:171.75ms
step:1196/1530 train_loss:3.3899 train_time:203711ms step_avg:171.76ms
step:1197/1530 train_loss:3.2968 train_time:203891ms step_avg:171.77ms
step:1198/1530 train_loss:3.3040 train_time:204076ms step_avg:171.78ms
step:1199/1530 train_loss:3.3453 train_time:204255ms step_avg:171.79ms
step:1200/1530 train_loss:3.4499 train_time:204431ms step_avg:171.79ms
step:1201/1530 train_loss:3.4871 train_time:204610ms step_avg:171.80ms
step:1202/1530 train_loss:3.6700 train_time:204800ms step_avg:171.81ms
step:1203/1530 train_loss:3.4090 train_time:204980ms step_avg:171.82ms
step:1204/1530 train_loss:3.3083 train_time:205162ms step_avg:171.83ms
step:1205/1530 train_loss:3.4403 train_time:205339ms step_avg:171.83ms
step:1206/1530 train_loss:3.4820 train_time:205513ms step_avg:171.83ms
step:1207/1530 train_loss:3.5221 train_time:205691ms step_avg:171.84ms
step:1208/1530 train_loss:3.3972 train_time:205866ms step_avg:171.84ms
step:1209/1530 train_loss:3.2468 train_time:206046ms step_avg:171.85ms
step:1210/1530 train_loss:3.3079 train_time:206224ms step_avg:171.85ms
step:1211/1530 train_loss:3.3977 train_time:206402ms step_avg:171.86ms
step:1212/1530 train_loss:3.3971 train_time:206578ms step_avg:171.86ms
step:1213/1530 train_loss:3.4166 train_time:206756ms step_avg:171.87ms
step:1214/1530 train_loss:3.2570 train_time:206937ms step_avg:171.87ms
step:1215/1530 train_loss:3.3984 train_time:207114ms step_avg:171.88ms
step:1216/1530 train_loss:3.3315 train_time:207291ms step_avg:171.88ms
step:1217/1530 train_loss:3.3231 train_time:207467ms step_avg:171.89ms
step:1218/1530 train_loss:3.4109 train_time:207645ms step_avg:171.89ms
step:1219/1530 train_loss:3.2517 train_time:207828ms step_avg:171.90ms
step:1220/1530 train_loss:3.4785 train_time:208005ms step_avg:171.91ms
step:1221/1530 train_loss:3.5094 train_time:208180ms step_avg:171.91ms
step:1222/1530 train_loss:3.4362 train_time:208355ms step_avg:171.91ms
step:1223/1530 train_loss:3.2994 train_time:208531ms step_avg:171.91ms
step:1224/1530 train_loss:3.2578 train_time:208713ms step_avg:171.92ms
step:1225/1530 train_loss:3.3717 train_time:208890ms step_avg:171.93ms
step:1226/1530 train_loss:3.3394 train_time:209071ms step_avg:171.93ms
step:1227/1530 train_loss:3.2772 train_time:209248ms step_avg:171.94ms
step:1228/1530 train_loss:3.4468 train_time:209424ms step_avg:171.94ms
step:1229/1530 train_loss:3.3744 train_time:209605ms step_avg:171.95ms
step:1230/1530 train_loss:3.4010 train_time:209786ms step_avg:171.96ms
step:1231/1530 train_loss:3.5811 train_time:209967ms step_avg:171.96ms
step:1232/1530 train_loss:3.5015 train_time:210146ms step_avg:171.97ms
step:1233/1530 train_loss:3.4314 train_time:210324ms step_avg:171.97ms
step:1234/1530 train_loss:3.5891 train_time:210503ms step_avg:171.98ms
step:1235/1530 train_loss:3.3268 train_time:210684ms step_avg:171.99ms
step:1236/1530 train_loss:3.2908 train_time:210860ms step_avg:171.99ms
step:1237/1530 train_loss:3.2786 train_time:211037ms step_avg:171.99ms
step:1238/1530 train_loss:3.2795 train_time:211221ms step_avg:172.00ms
step:1239/1530 train_loss:3.3372 train_time:211399ms step_avg:172.01ms
step:1240/1530 train_loss:3.3883 train_time:211577ms step_avg:172.01ms
step:1241/1530 train_loss:3.4321 train_time:211755ms step_avg:172.02ms
step:1242/1530 train_loss:3.3023 train_time:211933ms step_avg:172.02ms
step:1243/1530 train_loss:3.4099 train_time:212112ms step_avg:172.03ms
step:1244/1530 train_loss:3.4119 train_time:212286ms step_avg:172.03ms
step:1245/1530 train_loss:3.4161 train_time:212465ms step_avg:172.04ms
step:1246/1530 train_loss:3.2449 train_time:212643ms step_avg:172.04ms
step:1247/1530 train_loss:3.3768 train_time:212818ms step_avg:172.04ms
step:1248/1530 train_loss:3.4295 train_time:212996ms step_avg:172.05ms
step:1249/1530 train_loss:3.4291 train_time:213174ms step_avg:172.05ms
step:1250/1530 train_loss:3.3148 train_time:213353ms step_avg:172.06ms
step:1250/1530 val_loss:3.3602 train_time:213407ms step_avg:172.10ms
step:1251/1530 train_loss:3.4942 train_time:213539ms step_avg:172.07ms
step:1252/1530 train_loss:3.3642 train_time:213715ms step_avg:172.07ms
step:1253/1530 train_loss:3.3152 train_time:213894ms step_avg:172.08ms
step:1254/1530 train_loss:3.4260 train_time:214075ms step_avg:172.09ms
step:1255/1530 train_loss:3.5219 train_time:214263ms step_avg:172.10ms
step:1256/1530 train_loss:3.3105 train_time:214444ms step_avg:172.11ms
step:1257/1530 train_loss:3.3797 train_time:214622ms step_avg:172.11ms
step:1258/1530 train_loss:3.3689 train_time:214805ms step_avg:172.12ms
step:1259/1530 train_loss:3.3295 train_time:214982ms step_avg:172.12ms
step:1260/1530 train_loss:3.2139 train_time:215160ms step_avg:172.13ms
step:1261/1530 train_loss:3.3105 train_time:215340ms step_avg:172.13ms
step:1262/1530 train_loss:3.3339 train_time:215523ms step_avg:172.14ms
step:1263/1530 train_loss:3.2447 train_time:215705ms step_avg:172.15ms
step:1264/1530 train_loss:3.4425 train_time:215880ms step_avg:172.15ms
step:1265/1530 train_loss:3.4300 train_time:216056ms step_avg:172.16ms
step:1266/1530 train_loss:3.4435 train_time:216235ms step_avg:172.16ms
step:1267/1530 train_loss:3.3728 train_time:216415ms step_avg:172.17ms
step:1268/1530 train_loss:3.4194 train_time:216596ms step_avg:172.17ms
step:1269/1530 train_loss:3.2630 train_time:216780ms step_avg:172.18ms
step:1270/1530 train_loss:3.1119 train_time:216957ms step_avg:172.19ms
step:1271/1530 train_loss:3.4049 train_time:217136ms step_avg:172.19ms
step:1272/1530 train_loss:3.3565 train_time:217312ms step_avg:172.20ms
step:1273/1530 train_loss:3.3803 train_time:217494ms step_avg:172.20ms
step:1274/1530 train_loss:3.3647 train_time:217674ms step_avg:172.21ms
step:1275/1530 train_loss:3.4380 train_time:217850ms step_avg:172.21ms
step:1276/1530 train_loss:3.4749 train_time:218025ms step_avg:172.22ms
step:1277/1530 train_loss:3.4150 train_time:218204ms step_avg:172.22ms
step:1278/1530 train_loss:3.4142 train_time:218380ms step_avg:172.22ms
step:1279/1530 train_loss:3.2672 train_time:218562ms step_avg:172.23ms
step:1280/1530 train_loss:3.3666 train_time:218747ms step_avg:172.24ms
step:1281/1530 train_loss:3.4273 train_time:218924ms step_avg:172.25ms
step:1282/1530 train_loss:3.4744 train_time:219099ms step_avg:172.25ms
step:1283/1530 train_loss:3.3406 train_time:219279ms step_avg:172.25ms
step:1284/1530 train_loss:3.3736 train_time:219456ms step_avg:172.26ms
step:1285/1530 train_loss:3.3677 train_time:219635ms step_avg:172.26ms
step:1286/1530 train_loss:3.3372 train_time:219813ms step_avg:172.27ms
step:1287/1530 train_loss:3.4962 train_time:219992ms step_avg:172.27ms
step:1288/1530 train_loss:3.3021 train_time:220172ms step_avg:172.28ms
step:1289/1530 train_loss:3.3849 train_time:220358ms step_avg:172.29ms
step:1290/1530 train_loss:3.4647 train_time:220542ms step_avg:172.30ms
step:1291/1530 train_loss:3.3881 train_time:220722ms step_avg:172.30ms
step:1292/1530 train_loss:3.4792 train_time:220906ms step_avg:172.31ms
step:1293/1530 train_loss:3.5174 train_time:221088ms step_avg:172.32ms
step:1294/1530 train_loss:3.4579 train_time:221268ms step_avg:172.33ms
step:1295/1530 train_loss:3.2852 train_time:221447ms step_avg:172.33ms
step:1296/1530 train_loss:3.3789 train_time:221628ms step_avg:172.34ms
step:1297/1530 train_loss:3.2773 train_time:221807ms step_avg:172.34ms
step:1298/1530 train_loss:3.2803 train_time:221990ms step_avg:172.35ms
step:1299/1530 train_loss:3.3954 train_time:222168ms step_avg:172.36ms
step:1300/1530 train_loss:3.4072 train_time:222344ms step_avg:172.36ms
step:1301/1530 train_loss:3.4080 train_time:222521ms step_avg:172.36ms
step:1302/1530 train_loss:3.5773 train_time:222704ms step_avg:172.37ms
step:1303/1530 train_loss:3.3102 train_time:222887ms step_avg:172.38ms
step:1304/1530 train_loss:3.5178 train_time:223069ms step_avg:172.39ms
step:1305/1530 train_loss:3.2584 train_time:223244ms step_avg:172.39ms
step:1306/1530 train_loss:3.4586 train_time:223425ms step_avg:172.40ms
step:1307/1530 train_loss:3.4581 train_time:223600ms step_avg:172.40ms
step:1308/1530 train_loss:3.2899 train_time:223778ms step_avg:172.40ms
step:1309/1530 train_loss:3.3134 train_time:223959ms step_avg:172.41ms
step:1310/1530 train_loss:3.2904 train_time:224137ms step_avg:172.41ms
step:1311/1530 train_loss:3.3021 train_time:224315ms step_avg:172.42ms
step:1312/1530 train_loss:3.3830 train_time:224495ms step_avg:172.42ms
step:1313/1530 train_loss:3.3475 train_time:224672ms step_avg:172.43ms
step:1314/1530 train_loss:3.0472 train_time:224856ms step_avg:172.44ms
step:1315/1530 train_loss:3.2832 train_time:225034ms step_avg:172.44ms
step:1316/1530 train_loss:3.4046 train_time:225209ms step_avg:172.44ms
step:1317/1530 train_loss:3.4264 train_time:225388ms step_avg:172.45ms
step:1318/1530 train_loss:3.3051 train_time:225572ms step_avg:172.46ms
step:1319/1530 train_loss:3.4325 train_time:225750ms step_avg:172.46ms
step:1320/1530 train_loss:3.4655 train_time:225931ms step_avg:172.47ms
step:1321/1530 train_loss:3.3698 train_time:226110ms step_avg:172.47ms
step:1322/1530 train_loss:3.3252 train_time:226422ms step_avg:172.58ms
step:1323/1530 train_loss:3.3259 train_time:226611ms step_avg:172.59ms
step:1324/1530 train_loss:3.4430 train_time:226793ms step_avg:172.60ms
step:1325/1530 train_loss:3.4969 train_time:226979ms step_avg:172.61ms
step:1326/1530 train_loss:3.2153 train_time:227159ms step_avg:172.61ms
step:1327/1530 train_loss:3.1705 train_time:227335ms step_avg:172.62ms
step:1328/1530 train_loss:3.4955 train_time:227514ms step_avg:172.62ms
step:1329/1530 train_loss:3.3047 train_time:227850ms step_avg:172.74ms
step:1330/1530 train_loss:3.4373 train_time:228031ms step_avg:172.75ms
step:1331/1530 train_loss:3.3329 train_time:228207ms step_avg:172.75ms
step:1332/1530 train_loss:3.7466 train_time:228390ms step_avg:172.76ms
step:1333/1530 train_loss:3.4853 train_time:228571ms step_avg:172.77ms
step:1334/1530 train_loss:3.3766 train_time:228750ms step_avg:172.77ms
step:1335/1530 train_loss:3.2957 train_time:228927ms step_avg:172.77ms
step:1336/1530 train_loss:3.3003 train_time:229110ms step_avg:172.78ms
step:1337/1530 train_loss:3.5519 train_time:229290ms step_avg:172.79ms
step:1338/1530 train_loss:3.5284 train_time:229466ms step_avg:172.79ms
step:1339/1530 train_loss:3.3440 train_time:229646ms step_avg:172.80ms
step:1340/1530 train_loss:3.2921 train_time:229824ms step_avg:172.80ms
step:1341/1530 train_loss:3.5964 train_time:230001ms step_avg:172.80ms
step:1342/1530 train_loss:3.3629 train_time:230181ms step_avg:172.81ms
step:1343/1530 train_loss:3.3647 train_time:230360ms step_avg:172.81ms
step:1344/1530 train_loss:3.4216 train_time:230541ms step_avg:172.82ms
step:1345/1530 train_loss:3.3872 train_time:230724ms step_avg:172.83ms
step:1346/1530 train_loss:3.3038 train_time:230901ms step_avg:172.83ms
step:1347/1530 train_loss:3.2834 train_time:231078ms step_avg:172.83ms
step:1348/1530 train_loss:3.3521 train_time:231257ms step_avg:172.84ms
step:1349/1530 train_loss:3.2805 train_time:231433ms step_avg:172.84ms
step:1350/1530 train_loss:3.3957 train_time:231612ms step_avg:172.85ms
step:1351/1530 train_loss:3.2499 train_time:231788ms step_avg:172.85ms
step:1352/1530 train_loss:3.3140 train_time:231966ms step_avg:172.85ms
step:1353/1530 train_loss:3.4080 train_time:232144ms step_avg:172.85ms
step:1354/1530 train_loss:3.2647 train_time:232323ms step_avg:172.86ms
step:1355/1530 train_loss:3.1945 train_time:232500ms step_avg:172.86ms
step:1356/1530 train_loss:3.5159 train_time:232681ms step_avg:172.87ms
step:1357/1530 train_loss:3.4304 train_time:232861ms step_avg:172.87ms
step:1358/1530 train_loss:3.1915 train_time:233040ms step_avg:172.88ms
step:1359/1530 train_loss:3.4464 train_time:233220ms step_avg:172.88ms
step:1360/1530 train_loss:3.3556 train_time:233400ms step_avg:172.89ms
step:1361/1530 train_loss:3.1296 train_time:233586ms step_avg:172.90ms
step:1362/1530 train_loss:3.3959 train_time:233767ms step_avg:172.90ms
step:1363/1530 train_loss:3.2897 train_time:233956ms step_avg:172.92ms
step:1364/1530 train_loss:3.3083 train_time:234133ms step_avg:172.92ms
step:1365/1530 train_loss:3.3171 train_time:234308ms step_avg:172.92ms
step:1366/1530 train_loss:3.4252 train_time:234492ms step_avg:172.93ms
step:1367/1530 train_loss:3.4000 train_time:234671ms step_avg:172.93ms
step:1368/1530 train_loss:3.3547 train_time:234850ms step_avg:172.94ms
step:1369/1530 train_loss:3.2826 train_time:235039ms step_avg:172.95ms
step:1370/1530 train_loss:3.6092 train_time:235219ms step_avg:172.96ms
step:1371/1530 train_loss:3.3175 train_time:235401ms step_avg:172.96ms
step:1372/1530 train_loss:3.3772 train_time:235585ms step_avg:172.97ms
step:1373/1530 train_loss:3.3744 train_time:235765ms step_avg:172.98ms
step:1374/1530 train_loss:3.1560 train_time:235945ms step_avg:172.98ms
step:1375/1530 train_loss:3.5410 train_time:236124ms step_avg:172.98ms
step:1375/1530 val_loss:3.3180 train_time:236174ms step_avg:173.02ms
step:1376/1530 train_loss:3.3491 train_time:236303ms step_avg:172.99ms
step:1377/1530 train_loss:3.4837 train_time:236483ms step_avg:172.99ms
step:1378/1530 train_loss:3.4744 train_time:236658ms step_avg:173.00ms
step:1379/1530 train_loss:3.1217 train_time:236841ms step_avg:173.00ms
step:1380/1530 train_loss:3.3255 train_time:237022ms step_avg:173.01ms
step:1381/1530 train_loss:3.7066 train_time:237206ms step_avg:173.02ms
step:1382/1530 train_loss:3.2153 train_time:237385ms step_avg:173.02ms
step:1383/1530 train_loss:3.4003 train_time:237566ms step_avg:173.03ms
step:1384/1530 train_loss:3.4830 train_time:237749ms step_avg:173.03ms
step:1385/1530 train_loss:3.4089 train_time:237924ms step_avg:173.04ms
step:1386/1530 train_loss:3.3534 train_time:238103ms step_avg:173.04ms
step:1387/1530 train_loss:3.2009 train_time:238282ms step_avg:173.04ms
step:1388/1530 train_loss:3.3523 train_time:238457ms step_avg:173.05ms
step:1389/1530 train_loss:3.3224 train_time:238643ms step_avg:173.06ms
step:1390/1530 train_loss:3.5734 train_time:238821ms step_avg:173.06ms
step:1391/1530 train_loss:3.2945 train_time:238999ms step_avg:173.06ms
step:1392/1530 train_loss:3.2920 train_time:239178ms step_avg:173.07ms
step:1393/1530 train_loss:3.2447 train_time:239357ms step_avg:173.07ms
step:1394/1530 train_loss:3.5038 train_time:239534ms step_avg:173.07ms
step:1395/1530 train_loss:3.3959 train_time:239712ms step_avg:173.08ms
step:1396/1530 train_loss:3.4077 train_time:239890ms step_avg:173.08ms
step:1397/1530 train_loss:3.3166 train_time:240066ms step_avg:173.08ms
step:1398/1530 train_loss:3.2582 train_time:240242ms step_avg:173.08ms
step:1399/1530 train_loss:3.3237 train_time:240420ms step_avg:173.09ms
step:1400/1530 train_loss:3.3249 train_time:240603ms step_avg:173.10ms
step:1401/1530 train_loss:3.3558 train_time:240780ms step_avg:173.10ms
step:1402/1530 train_loss:3.3024 train_time:240959ms step_avg:173.10ms
step:1403/1530 train_loss:3.5027 train_time:241143ms step_avg:173.11ms
step:1404/1530 train_loss:3.2838 train_time:241321ms step_avg:173.11ms
step:1405/1530 train_loss:3.3179 train_time:241504ms step_avg:173.12ms
step:1406/1530 train_loss:3.3217 train_time:241686ms step_avg:173.13ms
step:1407/1530 train_loss:3.1836 train_time:241862ms step_avg:173.13ms
step:1408/1530 train_loss:3.3159 train_time:242041ms step_avg:173.13ms
step:1409/1530 train_loss:3.3044 train_time:242227ms step_avg:173.14ms
step:1410/1530 train_loss:3.2933 train_time:242405ms step_avg:173.15ms
step:1411/1530 train_loss:3.3774 train_time:242581ms step_avg:173.15ms
step:1412/1530 train_loss:3.3388 train_time:242757ms step_avg:173.15ms
step:1413/1530 train_loss:3.3662 train_time:242935ms step_avg:173.15ms
step:1414/1530 train_loss:3.3351 train_time:243117ms step_avg:173.16ms
step:1415/1530 train_loss:3.4123 train_time:243301ms step_avg:173.17ms
step:1416/1530 train_loss:3.2373 train_time:243491ms step_avg:173.18ms
step:1417/1530 train_loss:3.2868 train_time:243675ms step_avg:173.19ms
step:1418/1530 train_loss:3.3925 train_time:243854ms step_avg:173.19ms
step:1419/1530 train_loss:3.3474 train_time:244035ms step_avg:173.20ms
step:1420/1530 train_loss:3.3709 train_time:244217ms step_avg:173.20ms
step:1421/1530 train_loss:3.3803 train_time:244395ms step_avg:173.21ms
step:1422/1530 train_loss:3.3404 train_time:244575ms step_avg:173.21ms
step:1423/1530 train_loss:3.3198 train_time:244752ms step_avg:173.21ms
step:1424/1530 train_loss:3.3372 train_time:244937ms step_avg:173.22ms
step:1425/1530 train_loss:3.2016 train_time:245123ms step_avg:173.23ms
step:1426/1530 train_loss:3.3276 train_time:245303ms step_avg:173.24ms
step:1427/1530 train_loss:3.2898 train_time:245486ms step_avg:173.24ms
step:1428/1530 train_loss:3.3850 train_time:245663ms step_avg:173.25ms
step:1429/1530 train_loss:3.3545 train_time:245841ms step_avg:173.25ms
step:1430/1530 train_loss:3.2639 train_time:246020ms step_avg:173.25ms
step:1431/1530 train_loss:3.3267 train_time:246201ms step_avg:173.26ms
step:1432/1530 train_loss:3.3395 train_time:246384ms step_avg:173.27ms
step:1433/1530 train_loss:3.1412 train_time:246567ms step_avg:173.27ms
step:1434/1530 train_loss:3.2961 train_time:246749ms step_avg:173.28ms
step:1435/1530 train_loss:3.1222 train_time:246929ms step_avg:173.28ms
step:1436/1530 train_loss:3.2363 train_time:247108ms step_avg:173.29ms
step:1437/1530 train_loss:3.4115 train_time:247286ms step_avg:173.29ms
step:1438/1530 train_loss:3.3901 train_time:247463ms step_avg:173.29ms
step:1439/1530 train_loss:3.3216 train_time:247644ms step_avg:173.30ms
step:1440/1530 train_loss:3.2016 train_time:247820ms step_avg:173.30ms
step:1441/1530 train_loss:3.3399 train_time:248000ms step_avg:173.31ms
step:1442/1530 train_loss:3.3939 train_time:248186ms step_avg:173.31ms
step:1443/1530 train_loss:3.4969 train_time:248372ms step_avg:173.32ms
step:1444/1530 train_loss:3.4543 train_time:248548ms step_avg:173.32ms
step:1445/1530 train_loss:3.3432 train_time:248726ms step_avg:173.33ms
step:1446/1530 train_loss:3.2050 train_time:248907ms step_avg:173.33ms
step:1447/1530 train_loss:3.2992 train_time:249088ms step_avg:173.34ms
step:1448/1530 train_loss:3.3036 train_time:249267ms step_avg:173.34ms
step:1449/1530 train_loss:3.4057 train_time:249445ms step_avg:173.35ms
step:1450/1530 train_loss:3.3939 train_time:249625ms step_avg:173.35ms
step:1451/1530 train_loss:3.2105 train_time:249804ms step_avg:173.35ms
step:1452/1530 train_loss:3.3319 train_time:249985ms step_avg:173.36ms
step:1453/1530 train_loss:3.2672 train_time:250161ms step_avg:173.36ms
step:1454/1530 train_loss:3.2949 train_time:250338ms step_avg:173.36ms
step:1455/1530 train_loss:3.3378 train_time:250520ms step_avg:173.37ms
step:1456/1530 train_loss:3.2893 train_time:250698ms step_avg:173.37ms
step:1457/1530 train_loss:3.1591 train_time:250877ms step_avg:173.38ms
step:1458/1530 train_loss:3.4263 train_time:251055ms step_avg:173.38ms
step:1459/1530 train_loss:3.2779 train_time:251236ms step_avg:173.39ms
step:1460/1530 train_loss:3.3226 train_time:251414ms step_avg:173.39ms
step:1461/1530 train_loss:3.4328 train_time:251596ms step_avg:173.39ms
step:1462/1530 train_loss:3.2664 train_time:251772ms step_avg:173.40ms
step:1463/1530 train_loss:3.4723 train_time:251955ms step_avg:173.40ms
step:1464/1530 train_loss:3.3665 train_time:252132ms step_avg:173.41ms
step:1465/1530 train_loss:3.3639 train_time:252312ms step_avg:173.41ms
step:1466/1530 train_loss:3.2940 train_time:252490ms step_avg:173.41ms
step:1467/1530 train_loss:3.4009 train_time:252670ms step_avg:173.42ms
step:1468/1530 train_loss:3.2908 train_time:252848ms step_avg:173.42ms
step:1469/1530 train_loss:3.2813 train_time:253028ms step_avg:173.43ms
step:1470/1530 train_loss:3.3321 train_time:253212ms step_avg:173.43ms
step:1471/1530 train_loss:3.2624 train_time:253397ms step_avg:173.44ms
step:1472/1530 train_loss:3.2605 train_time:253582ms step_avg:173.45ms
step:1473/1530 train_loss:3.4465 train_time:253760ms step_avg:173.45ms
step:1474/1530 train_loss:3.3209 train_time:253944ms step_avg:173.46ms
step:1475/1530 train_loss:3.1541 train_time:254129ms step_avg:173.47ms
step:1476/1530 train_loss:3.2725 train_time:254308ms step_avg:173.47ms
step:1477/1530 train_loss:3.2428 train_time:254495ms step_avg:173.48ms
step:1478/1530 train_loss:3.3127 train_time:254680ms step_avg:173.49ms
step:1479/1530 train_loss:3.4056 train_time:254861ms step_avg:173.49ms
step:1480/1530 train_loss:3.2756 train_time:255039ms step_avg:173.50ms
step:1481/1530 train_loss:3.4577 train_time:255223ms step_avg:173.50ms
step:1482/1530 train_loss:3.3724 train_time:255410ms step_avg:173.51ms
step:1483/1530 train_loss:3.2860 train_time:255601ms step_avg:173.52ms
step:1484/1530 train_loss:3.2720 train_time:255790ms step_avg:173.53ms
step:1485/1530 train_loss:3.2852 train_time:255971ms step_avg:173.54ms
step:1486/1530 train_loss:3.2318 train_time:256155ms step_avg:173.55ms
step:1487/1530 train_loss:3.3479 train_time:256337ms step_avg:173.55ms
step:1488/1530 train_loss:3.2512 train_time:256520ms step_avg:173.56ms
step:1489/1530 train_loss:3.3195 train_time:256700ms step_avg:173.56ms
step:1490/1530 train_loss:3.2620 train_time:256881ms step_avg:173.57ms
step:1491/1530 train_loss:3.1698 train_time:257062ms step_avg:173.57ms
step:1492/1530 train_loss:3.2722 train_time:257241ms step_avg:173.58ms
step:1493/1530 train_loss:3.4426 train_time:257421ms step_avg:173.58ms
step:1494/1530 train_loss:3.3083 train_time:257601ms step_avg:173.59ms
step:1495/1530 train_loss:3.0396 train_time:257786ms step_avg:173.59ms
step:1496/1530 train_loss:3.3674 train_time:257968ms step_avg:173.60ms
step:1497/1530 train_loss:3.3176 train_time:258152ms step_avg:173.61ms
step:1498/1530 train_loss:3.3516 train_time:258336ms step_avg:173.61ms
step:1499/1530 train_loss:3.3180 train_time:258525ms step_avg:173.62ms
step:1500/1530 train_loss:3.3006 train_time:258716ms step_avg:173.64ms
step:1500/1530 val_loss:3.2862 train_time:258771ms step_avg:173.67ms
step:1501/1530 train_loss:3.0932 train_time:258908ms step_avg:173.65ms
step:1502/1530 train_loss:3.3683 train_time:259100ms step_avg:173.66ms
step:1503/1530 train_loss:3.2470 train_time:259278ms step_avg:173.66ms
step:1504/1530 train_loss:3.2526 train_time:259460ms step_avg:173.67ms
step:1505/1530 train_loss:3.2214 train_time:259641ms step_avg:173.67ms
step:1506/1530 train_loss:3.2863 train_time:259821ms step_avg:173.68ms
step:1507/1530 train_loss:3.1825 train_time:260019ms step_avg:173.69ms
step:1508/1530 train_loss:3.4895 train_time:260203ms step_avg:173.70ms
step:1509/1530 train_loss:3.2864 train_time:260378ms step_avg:173.70ms
step:1510/1530 train_loss:3.2768 train_time:260558ms step_avg:173.71ms
step:1511/1530 train_loss:3.4216 train_time:260872ms step_avg:173.80ms
step:1512/1530 train_loss:3.4271 train_time:261061ms step_avg:173.81ms
step:1513/1530 train_loss:3.2711 train_time:261245ms step_avg:173.82ms
step:1514/1530 train_loss:3.0867 train_time:261429ms step_avg:173.82ms
step:1515/1530 train_loss:3.2442 train_time:261610ms step_avg:173.83ms
step:1516/1530 train_loss:3.2609 train_time:261795ms step_avg:173.83ms
step:1517/1530 train_loss:3.3067 train_time:261977ms step_avg:173.84ms
step:1518/1530 train_loss:3.2125 train_time:262160ms step_avg:173.85ms
step:1519/1530 train_loss:3.5061 train_time:262490ms step_avg:173.95ms
step:1520/1530 train_loss:3.1304 train_time:262675ms step_avg:173.96ms
step:1521/1530 train_loss:3.2113 train_time:262854ms step_avg:173.96ms
step:1522/1530 train_loss:3.3623 train_time:263038ms step_avg:173.97ms
step:1523/1530 train_loss:3.2357 train_time:263215ms step_avg:173.97ms
step:1524/1530 train_loss:3.3526 train_time:263394ms step_avg:173.97ms
step:1525/1530 train_loss:3.3416 train_time:263582ms step_avg:173.98ms
step:1526/1530 train_loss:3.2832 train_time:263773ms step_avg:173.99ms
step:1527/1530 train_loss:3.2987 train_time:263954ms step_avg:174.00ms
step:1528/1530 train_loss:3.4151 train_time:264134ms step_avg:174.00ms
step:1529/1530 train_loss:3.4157 train_time:264312ms step_avg:174.00ms
step:1530/1530 train_loss:3.2432 train_time:264491ms step_avg:174.01ms
step:1530/1530 val_loss:3.2838 train_time:264545ms step_avg:174.04ms