records/120424_ValueEmbed/2f4ce5fe-b625-41b4-acbb-d4c20b591ead.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 03:28:49 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      2%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             127W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31732ms step_avg:nanms
step:2/1530 train_loss:10.0857 train_time:31843ms step_avg:nanms
step:3/1530 train_loss:8.4306 train_time:32002ms step_avg:nanms
step:4/1530 train_loss:7.5140 train_time:32163ms step_avg:nanms
step:5/1530 train_loss:7.4447 train_time:32323ms step_avg:nanms
step:6/1530 train_loss:6.9495 train_time:32484ms step_avg:nanms
step:7/1530 train_loss:7.1900 train_time:32647ms step_avg:nanms
step:8/1530 train_loss:6.7165 train_time:32807ms step_avg:nanms
step:9/1530 train_loss:6.6077 train_time:32968ms step_avg:nanms
step:10/1530 train_loss:6.5017 train_time:33128ms step_avg:nanms
step:11/1530 train_loss:6.4453 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3194 train_time:276ms step_avg:nanms
step:13/1530 train_loss:6.2589 train_time:436ms step_avg:145.27ms
step:14/1530 train_loss:6.2066 train_time:597ms step_avg:149.14ms
step:15/1530 train_loss:6.1715 train_time:757ms step_avg:151.42ms
step:16/1530 train_loss:6.1008 train_time:917ms step_avg:152.80ms
step:17/1530 train_loss:6.1577 train_time:1078ms step_avg:154.04ms
step:18/1530 train_loss:5.9402 train_time:1238ms step_avg:154.80ms
step:19/1530 train_loss:5.9906 train_time:1398ms step_avg:155.38ms
step:20/1530 train_loss:5.6765 train_time:1561ms step_avg:156.10ms
step:21/1530 train_loss:5.9452 train_time:1722ms step_avg:156.53ms
step:22/1530 train_loss:6.1848 train_time:1881ms step_avg:156.78ms
step:23/1530 train_loss:5.8730 train_time:2042ms step_avg:157.11ms
step:24/1530 train_loss:6.0210 train_time:2203ms step_avg:157.35ms
step:25/1530 train_loss:5.6963 train_time:2364ms step_avg:157.62ms
step:26/1530 train_loss:5.5951 train_time:2525ms step_avg:157.82ms
step:27/1530 train_loss:5.7896 train_time:2685ms step_avg:157.91ms
step:28/1530 train_loss:5.4035 train_time:2845ms step_avg:158.03ms
step:29/1530 train_loss:5.6860 train_time:3004ms step_avg:158.12ms
step:30/1530 train_loss:5.4573 train_time:3165ms step_avg:158.23ms
step:31/1530 train_loss:5.4249 train_time:3325ms step_avg:158.31ms
step:32/1530 train_loss:5.2801 train_time:3484ms step_avg:158.37ms
step:33/1530 train_loss:5.5831 train_time:3644ms step_avg:158.45ms
step:34/1530 train_loss:5.4986 train_time:3804ms step_avg:158.49ms
step:35/1530 train_loss:5.6173 train_time:3964ms step_avg:158.56ms
step:36/1530 train_loss:5.5345 train_time:4123ms step_avg:158.58ms
step:37/1530 train_loss:5.4338 train_time:4284ms step_avg:158.66ms
step:38/1530 train_loss:5.3056 train_time:4444ms step_avg:158.73ms
step:39/1530 train_loss:5.3417 train_time:4604ms step_avg:158.78ms
step:40/1530 train_loss:5.2435 train_time:4765ms step_avg:158.83ms
step:41/1530 train_loss:5.2252 train_time:4925ms step_avg:158.88ms
step:42/1530 train_loss:5.1652 train_time:5085ms step_avg:158.90ms
step:43/1530 train_loss:5.2755 train_time:5244ms step_avg:158.92ms
step:44/1530 train_loss:5.2241 train_time:5405ms step_avg:158.97ms
step:45/1530 train_loss:5.3733 train_time:5565ms step_avg:159.01ms
step:46/1530 train_loss:5.1627 train_time:5726ms step_avg:159.05ms
step:47/1530 train_loss:5.0494 train_time:5886ms step_avg:159.08ms
step:48/1530 train_loss:5.1998 train_time:6047ms step_avg:159.12ms
step:49/1530 train_loss:5.1515 train_time:6207ms step_avg:159.14ms
step:50/1530 train_loss:5.2593 train_time:6366ms step_avg:159.14ms
step:51/1530 train_loss:5.1617 train_time:6527ms step_avg:159.18ms
step:52/1530 train_loss:5.0339 train_time:6687ms step_avg:159.22ms
step:53/1530 train_loss:5.1812 train_time:6848ms step_avg:159.27ms
step:54/1530 train_loss:5.0017 train_time:7010ms step_avg:159.32ms
step:55/1530 train_loss:5.4051 train_time:7171ms step_avg:159.35ms
step:56/1530 train_loss:5.0154 train_time:7332ms step_avg:159.39ms
step:57/1530 train_loss:4.8797 train_time:7492ms step_avg:159.41ms
step:58/1530 train_loss:5.0444 train_time:7653ms step_avg:159.43ms
step:59/1530 train_loss:5.0300 train_time:7812ms step_avg:159.44ms
step:60/1530 train_loss:5.1391 train_time:7974ms step_avg:159.47ms
step:61/1530 train_loss:4.8668 train_time:8135ms step_avg:159.51ms
step:62/1530 train_loss:4.9930 train_time:8295ms step_avg:159.52ms
step:63/1530 train_loss:4.9782 train_time:8456ms step_avg:159.54ms
step:64/1530 train_loss:4.9224 train_time:8615ms step_avg:159.53ms
step:65/1530 train_loss:4.8295 train_time:8776ms step_avg:159.56ms
step:66/1530 train_loss:4.9417 train_time:8936ms step_avg:159.58ms
step:67/1530 train_loss:4.8185 train_time:9096ms step_avg:159.58ms
step:68/1530 train_loss:5.0896 train_time:9258ms step_avg:159.62ms
step:69/1530 train_loss:4.7308 train_time:9418ms step_avg:159.63ms
step:70/1530 train_loss:4.8357 train_time:9579ms step_avg:159.65ms
step:71/1530 train_loss:4.9852 train_time:9740ms step_avg:159.68ms
step:72/1530 train_loss:4.8886 train_time:9901ms step_avg:159.69ms
step:73/1530 train_loss:4.7632 train_time:10062ms step_avg:159.72ms
step:74/1530 train_loss:4.9134 train_time:10222ms step_avg:159.72ms
step:75/1530 train_loss:4.8925 train_time:10382ms step_avg:159.72ms
step:76/1530 train_loss:4.8116 train_time:10542ms step_avg:159.73ms
step:77/1530 train_loss:4.9227 train_time:10702ms step_avg:159.73ms
step:78/1530 train_loss:5.1191 train_time:10864ms step_avg:159.76ms
step:79/1530 train_loss:4.8330 train_time:11023ms step_avg:159.76ms
step:80/1530 train_loss:4.8947 train_time:11183ms step_avg:159.76ms
step:81/1530 train_loss:4.6782 train_time:11343ms step_avg:159.77ms
step:82/1530 train_loss:4.8344 train_time:11504ms step_avg:159.77ms
step:83/1530 train_loss:4.7922 train_time:11664ms step_avg:159.78ms
step:84/1530 train_loss:4.7846 train_time:11824ms step_avg:159.78ms
step:85/1530 train_loss:4.6279 train_time:11984ms step_avg:159.78ms
step:86/1530 train_loss:4.8457 train_time:12144ms step_avg:159.78ms
step:87/1530 train_loss:4.7573 train_time:12305ms step_avg:159.80ms
step:88/1530 train_loss:4.7606 train_time:12465ms step_avg:159.81ms
step:89/1530 train_loss:4.7140 train_time:12625ms step_avg:159.81ms
step:90/1530 train_loss:4.6576 train_time:12784ms step_avg:159.81ms
step:91/1530 train_loss:4.6539 train_time:12944ms step_avg:159.80ms
step:92/1530 train_loss:4.8206 train_time:13104ms step_avg:159.81ms
step:93/1530 train_loss:4.6359 train_time:13266ms step_avg:159.83ms
step:94/1530 train_loss:4.6554 train_time:13426ms step_avg:159.84ms
step:95/1530 train_loss:4.6905 train_time:13586ms step_avg:159.83ms
step:96/1530 train_loss:4.6099 train_time:13746ms step_avg:159.84ms
step:97/1530 train_loss:4.6652 train_time:13907ms step_avg:159.86ms
step:98/1530 train_loss:4.5984 train_time:14068ms step_avg:159.86ms
step:99/1530 train_loss:4.6771 train_time:14228ms step_avg:159.87ms
step:100/1530 train_loss:4.6870 train_time:14389ms step_avg:159.88ms
step:101/1530 train_loss:4.5404 train_time:14548ms step_avg:159.87ms
step:102/1530 train_loss:4.7115 train_time:14709ms step_avg:159.88ms
step:103/1530 train_loss:4.5906 train_time:14871ms step_avg:159.90ms
step:104/1530 train_loss:4.5479 train_time:15031ms step_avg:159.91ms
step:105/1530 train_loss:4.5643 train_time:15192ms step_avg:159.91ms
step:106/1530 train_loss:4.6527 train_time:15352ms step_avg:159.92ms
step:107/1530 train_loss:4.5246 train_time:15512ms step_avg:159.92ms
step:108/1530 train_loss:4.3911 train_time:15674ms step_avg:159.94ms
step:109/1530 train_loss:4.5087 train_time:15835ms step_avg:159.95ms
step:110/1530 train_loss:4.5077 train_time:15996ms step_avg:159.96ms
step:111/1530 train_loss:4.4385 train_time:16157ms step_avg:159.97ms
step:112/1530 train_loss:4.5981 train_time:16318ms step_avg:159.98ms
step:113/1530 train_loss:4.4977 train_time:16479ms step_avg:159.99ms
step:114/1530 train_loss:4.3822 train_time:16640ms step_avg:160.00ms
step:115/1530 train_loss:4.5281 train_time:16802ms step_avg:160.02ms
step:116/1530 train_loss:4.4790 train_time:16969ms step_avg:160.09ms
step:117/1530 train_loss:4.3798 train_time:17134ms step_avg:160.13ms
step:118/1530 train_loss:4.5966 train_time:17298ms step_avg:160.16ms
step:119/1530 train_loss:4.4669 train_time:17461ms step_avg:160.20ms
step:120/1530 train_loss:4.3411 train_time:17625ms step_avg:160.23ms
step:121/1530 train_loss:4.3130 train_time:17790ms step_avg:160.27ms
step:122/1530 train_loss:4.4622 train_time:17954ms step_avg:160.30ms
step:123/1530 train_loss:4.2933 train_time:18117ms step_avg:160.33ms
step:124/1530 train_loss:4.5994 train_time:18282ms step_avg:160.37ms
step:125/1530 train_loss:4.4850 train_time:18446ms step_avg:160.40ms
step:125/1530 val_loss:4.4175 train_time:18493ms step_avg:160.81ms
step:126/1530 train_loss:4.4307 train_time:18614ms step_avg:160.47ms
step:127/1530 train_loss:4.4510 train_time:18778ms step_avg:160.50ms
step:128/1530 train_loss:4.3898 train_time:18942ms step_avg:160.53ms
step:129/1530 train_loss:4.7017 train_time:19108ms step_avg:160.57ms
step:130/1530 train_loss:4.3675 train_time:19270ms step_avg:160.58ms
step:131/1530 train_loss:4.4056 train_time:19435ms step_avg:160.62ms
step:132/1530 train_loss:4.3624 train_time:19599ms step_avg:160.65ms
step:133/1530 train_loss:4.4639 train_time:19762ms step_avg:160.67ms
step:134/1530 train_loss:4.2860 train_time:19927ms step_avg:160.70ms
step:135/1530 train_loss:4.4508 train_time:20090ms step_avg:160.72ms
step:136/1530 train_loss:4.2273 train_time:20254ms step_avg:160.75ms
step:137/1530 train_loss:4.3797 train_time:20417ms step_avg:160.77ms
step:138/1530 train_loss:4.2982 train_time:20581ms step_avg:160.79ms
step:139/1530 train_loss:4.3875 train_time:20745ms step_avg:160.81ms
step:140/1530 train_loss:4.4773 train_time:20909ms step_avg:160.84ms
step:141/1530 train_loss:4.3163 train_time:21073ms step_avg:160.86ms
step:142/1530 train_loss:4.3075 train_time:21237ms step_avg:160.89ms
step:143/1530 train_loss:4.2587 train_time:21401ms step_avg:160.91ms
step:144/1530 train_loss:4.3504 train_time:21564ms step_avg:160.93ms
step:145/1530 train_loss:4.3138 train_time:21729ms step_avg:160.96ms
step:146/1530 train_loss:4.1843 train_time:21894ms step_avg:160.98ms
step:147/1530 train_loss:4.3246 train_time:22058ms step_avg:161.01ms
step:148/1530 train_loss:4.3581 train_time:22221ms step_avg:161.02ms
step:149/1530 train_loss:4.3130 train_time:22385ms step_avg:161.05ms
step:150/1530 train_loss:4.4442 train_time:22549ms step_avg:161.06ms
step:151/1530 train_loss:4.2681 train_time:22714ms step_avg:161.09ms
step:152/1530 train_loss:4.2819 train_time:22877ms step_avg:161.10ms
step:153/1530 train_loss:4.3761 train_time:23041ms step_avg:161.12ms
step:154/1530 train_loss:4.3742 train_time:23205ms step_avg:161.15ms
step:155/1530 train_loss:4.2656 train_time:23369ms step_avg:161.17ms
step:156/1530 train_loss:4.3458 train_time:23532ms step_avg:161.18ms
step:157/1530 train_loss:4.4022 train_time:23697ms step_avg:161.20ms
step:158/1530 train_loss:4.2504 train_time:23860ms step_avg:161.22ms
step:159/1530 train_loss:4.3188 train_time:24023ms step_avg:161.23ms
step:160/1530 train_loss:4.1359 train_time:24187ms step_avg:161.25ms
step:161/1530 train_loss:4.3475 train_time:24350ms step_avg:161.26ms
step:162/1530 train_loss:4.3556 train_time:24514ms step_avg:161.28ms
step:163/1530 train_loss:4.3367 train_time:24678ms step_avg:161.29ms
step:164/1530 train_loss:4.1831 train_time:24841ms step_avg:161.31ms
step:165/1530 train_loss:4.2789 train_time:25005ms step_avg:161.32ms
step:166/1530 train_loss:4.3430 train_time:25169ms step_avg:161.34ms
step:167/1530 train_loss:4.2020 train_time:25333ms step_avg:161.36ms
step:168/1530 train_loss:4.2883 train_time:25497ms step_avg:161.37ms
step:169/1530 train_loss:4.1660 train_time:25660ms step_avg:161.39ms
step:170/1530 train_loss:4.0257 train_time:25825ms step_avg:161.41ms
step:171/1530 train_loss:4.2016 train_time:25989ms step_avg:161.42ms
step:172/1530 train_loss:4.2023 train_time:26151ms step_avg:161.42ms
step:173/1530 train_loss:4.2762 train_time:26314ms step_avg:161.44ms
step:174/1530 train_loss:4.4183 train_time:26476ms step_avg:161.44ms
step:175/1530 train_loss:4.2410 train_time:26639ms step_avg:161.45ms
step:176/1530 train_loss:4.0958 train_time:26802ms step_avg:161.46ms
step:177/1530 train_loss:4.0707 train_time:26964ms step_avg:161.46ms
step:178/1530 train_loss:4.1881 train_time:27127ms step_avg:161.47ms
step:179/1530 train_loss:4.1225 train_time:27289ms step_avg:161.47ms
step:180/1530 train_loss:4.1211 train_time:27451ms step_avg:161.47ms
step:181/1530 train_loss:4.2948 train_time:27614ms step_avg:161.48ms
step:182/1530 train_loss:4.1510 train_time:27776ms step_avg:161.49ms
step:183/1530 train_loss:4.1323 train_time:27939ms step_avg:161.50ms
step:184/1530 train_loss:4.1335 train_time:28101ms step_avg:161.50ms
step:185/1530 train_loss:4.2213 train_time:28265ms step_avg:161.51ms
step:186/1530 train_loss:4.1795 train_time:28427ms step_avg:161.52ms
step:187/1530 train_loss:4.2213 train_time:28591ms step_avg:161.53ms
step:188/1530 train_loss:4.1717 train_time:28894ms step_avg:162.32ms
step:189/1530 train_loss:4.1117 train_time:29230ms step_avg:163.30ms
step:190/1530 train_loss:4.2037 train_time:29394ms step_avg:163.30ms
step:191/1530 train_loss:4.0748 train_time:29557ms step_avg:163.30ms
step:192/1530 train_loss:4.0195 train_time:29720ms step_avg:163.30ms
step:193/1530 train_loss:4.2544 train_time:29882ms step_avg:163.29ms
step:194/1530 train_loss:4.1712 train_time:30045ms step_avg:163.29ms
step:195/1530 train_loss:4.3561 train_time:30208ms step_avg:163.29ms
step:196/1530 train_loss:4.1756 train_time:30371ms step_avg:163.29ms
step:197/1530 train_loss:4.0426 train_time:30534ms step_avg:163.29ms
step:198/1530 train_loss:4.1690 train_time:30697ms step_avg:163.28ms
step:199/1530 train_loss:4.0306 train_time:30860ms step_avg:163.28ms
step:200/1530 train_loss:4.1133 train_time:31023ms step_avg:163.28ms
step:201/1530 train_loss:4.0164 train_time:31186ms step_avg:163.28ms
step:202/1530 train_loss:4.2523 train_time:31350ms step_avg:163.28ms
step:203/1530 train_loss:4.0653 train_time:31512ms step_avg:163.28ms
step:204/1530 train_loss:4.1868 train_time:31675ms step_avg:163.27ms
step:205/1530 train_loss:4.2420 train_time:31838ms step_avg:163.27ms
step:206/1530 train_loss:3.9414 train_time:32001ms step_avg:163.27ms
step:207/1530 train_loss:4.0719 train_time:32164ms step_avg:163.27ms
step:208/1530 train_loss:4.1042 train_time:32327ms step_avg:163.27ms
step:209/1530 train_loss:4.2340 train_time:32489ms step_avg:163.26ms
step:210/1530 train_loss:4.1733 train_time:32652ms step_avg:163.26ms
step:211/1530 train_loss:4.0629 train_time:32815ms step_avg:163.26ms
step:212/1530 train_loss:4.1179 train_time:32977ms step_avg:163.25ms
step:213/1530 train_loss:4.0507 train_time:33140ms step_avg:163.25ms
step:214/1530 train_loss:4.1204 train_time:33303ms step_avg:163.25ms
step:215/1530 train_loss:3.9554 train_time:33468ms step_avg:163.26ms
step:216/1530 train_loss:3.9876 train_time:33631ms step_avg:163.26ms
step:217/1530 train_loss:4.0023 train_time:33794ms step_avg:163.26ms
step:218/1530 train_loss:4.0802 train_time:33958ms step_avg:163.26ms
step:219/1530 train_loss:4.0724 train_time:34120ms step_avg:163.26ms
step:220/1530 train_loss:4.0785 train_time:34283ms step_avg:163.25ms
step:221/1530 train_loss:4.0944 train_time:34446ms step_avg:163.25ms
step:222/1530 train_loss:3.9912 train_time:34610ms step_avg:163.26ms
step:223/1530 train_loss:3.9887 train_time:34774ms step_avg:163.26ms
step:224/1530 train_loss:4.2983 train_time:34937ms step_avg:163.26ms
step:225/1530 train_loss:3.9228 train_time:35100ms step_avg:163.26ms
step:226/1530 train_loss:3.9835 train_time:35264ms step_avg:163.26ms
step:227/1530 train_loss:3.9704 train_time:35426ms step_avg:163.25ms
step:228/1530 train_loss:4.1371 train_time:35591ms step_avg:163.26ms
step:229/1530 train_loss:3.9210 train_time:35758ms step_avg:163.28ms
step:230/1530 train_loss:4.0365 train_time:35922ms step_avg:163.28ms
step:231/1530 train_loss:3.9001 train_time:36089ms step_avg:163.30ms
step:232/1530 train_loss:3.9634 train_time:36255ms step_avg:163.31ms
step:233/1530 train_loss:4.0855 train_time:36420ms step_avg:163.32ms
step:234/1530 train_loss:4.0271 train_time:36587ms step_avg:163.34ms
step:235/1530 train_loss:3.9077 train_time:36756ms step_avg:163.36ms
step:236/1530 train_loss:4.0700 train_time:36922ms step_avg:163.37ms
step:237/1530 train_loss:4.0733 train_time:37087ms step_avg:163.38ms
step:238/1530 train_loss:3.9419 train_time:37254ms step_avg:163.40ms
step:239/1530 train_loss:4.0773 train_time:37420ms step_avg:163.41ms
step:240/1530 train_loss:4.1134 train_time:37586ms step_avg:163.42ms
step:241/1530 train_loss:3.9596 train_time:37752ms step_avg:163.43ms
step:242/1530 train_loss:4.1438 train_time:37919ms step_avg:163.44ms
step:243/1530 train_loss:4.0082 train_time:38085ms step_avg:163.46ms
step:244/1530 train_loss:4.0764 train_time:38251ms step_avg:163.47ms
step:245/1530 train_loss:4.1313 train_time:38417ms step_avg:163.47ms
step:246/1530 train_loss:4.0489 train_time:38582ms step_avg:163.48ms
step:247/1530 train_loss:4.0027 train_time:38748ms step_avg:163.49ms
step:248/1530 train_loss:4.0933 train_time:38916ms step_avg:163.51ms
step:249/1530 train_loss:3.9170 train_time:39081ms step_avg:163.52ms
step:250/1530 train_loss:3.9659 train_time:39247ms step_avg:163.53ms
step:250/1530 val_loss:4.0004 train_time:39296ms step_avg:163.73ms
step:251/1530 train_loss:4.0662 train_time:39417ms step_avg:163.56ms
step:252/1530 train_loss:4.1508 train_time:39584ms step_avg:163.57ms
step:253/1530 train_loss:3.9219 train_time:39750ms step_avg:163.58ms
step:254/1530 train_loss:3.8709 train_time:39918ms step_avg:163.60ms
step:255/1530 train_loss:4.0727 train_time:40084ms step_avg:163.61ms
step:256/1530 train_loss:3.9889 train_time:40251ms step_avg:163.62ms
step:257/1530 train_loss:3.9868 train_time:40417ms step_avg:163.63ms
step:258/1530 train_loss:3.9774 train_time:40586ms step_avg:163.65ms
step:259/1530 train_loss:4.0288 train_time:40752ms step_avg:163.66ms
step:260/1530 train_loss:4.0537 train_time:40918ms step_avg:163.67ms
step:261/1530 train_loss:4.0153 train_time:41085ms step_avg:163.69ms
step:262/1530 train_loss:3.9789 train_time:41251ms step_avg:163.70ms
step:263/1530 train_loss:3.8832 train_time:41417ms step_avg:163.70ms
step:264/1530 train_loss:3.9814 train_time:41582ms step_avg:163.71ms
step:265/1530 train_loss:3.8641 train_time:41750ms step_avg:163.72ms
step:266/1530 train_loss:3.9148 train_time:41916ms step_avg:163.73ms
step:267/1530 train_loss:3.9229 train_time:42082ms step_avg:163.74ms
step:268/1530 train_loss:3.9523 train_time:42247ms step_avg:163.75ms
step:269/1530 train_loss:3.8447 train_time:42414ms step_avg:163.76ms
step:270/1530 train_loss:4.0836 train_time:42580ms step_avg:163.77ms
step:271/1530 train_loss:3.9603 train_time:42746ms step_avg:163.78ms
step:272/1530 train_loss:3.9280 train_time:42912ms step_avg:163.79ms
step:273/1530 train_loss:3.9378 train_time:43078ms step_avg:163.79ms
step:274/1530 train_loss:4.0311 train_time:43242ms step_avg:163.80ms
step:275/1530 train_loss:4.0574 train_time:43408ms step_avg:163.81ms
step:276/1530 train_loss:4.2242 train_time:43576ms step_avg:163.82ms
step:277/1530 train_loss:4.0342 train_time:43740ms step_avg:163.82ms
step:278/1530 train_loss:4.0785 train_time:43907ms step_avg:163.83ms
step:279/1530 train_loss:3.9940 train_time:44074ms step_avg:163.84ms
step:280/1530 train_loss:4.2392 train_time:44240ms step_avg:163.85ms
step:281/1530 train_loss:3.9778 train_time:44405ms step_avg:163.86ms
step:282/1530 train_loss:3.9344 train_time:44574ms step_avg:163.87ms
step:283/1530 train_loss:3.9131 train_time:44739ms step_avg:163.88ms
step:284/1530 train_loss:4.0421 train_time:44905ms step_avg:163.89ms
step:285/1530 train_loss:4.0532 train_time:45072ms step_avg:163.90ms
step:286/1530 train_loss:4.0853 train_time:45237ms step_avg:163.90ms
step:287/1530 train_loss:3.8991 train_time:45402ms step_avg:163.91ms
step:288/1530 train_loss:4.0027 train_time:45567ms step_avg:163.91ms
step:289/1530 train_loss:3.8635 train_time:45734ms step_avg:163.92ms
step:290/1530 train_loss:3.8577 train_time:45899ms step_avg:163.93ms
step:291/1530 train_loss:3.8996 train_time:46064ms step_avg:163.93ms
step:292/1530 train_loss:3.8579 train_time:46230ms step_avg:163.94ms
step:293/1530 train_loss:3.8979 train_time:46396ms step_avg:163.94ms
step:294/1530 train_loss:3.9318 train_time:46561ms step_avg:163.95ms
step:295/1530 train_loss:3.8334 train_time:46725ms step_avg:163.95ms
step:296/1530 train_loss:3.8546 train_time:46893ms step_avg:163.96ms
step:297/1530 train_loss:3.8587 train_time:47059ms step_avg:163.97ms
step:298/1530 train_loss:3.9648 train_time:47223ms step_avg:163.97ms
step:299/1530 train_loss:3.8194 train_time:47389ms step_avg:163.98ms
step:300/1530 train_loss:3.9599 train_time:47555ms step_avg:163.98ms
step:301/1530 train_loss:3.9558 train_time:47720ms step_avg:163.99ms
step:302/1530 train_loss:3.9257 train_time:47885ms step_avg:163.99ms
step:303/1530 train_loss:3.9741 train_time:48050ms step_avg:163.99ms
step:304/1530 train_loss:3.9615 train_time:48215ms step_avg:164.00ms
step:305/1530 train_loss:4.4536 train_time:48380ms step_avg:164.00ms
step:306/1530 train_loss:3.9280 train_time:48543ms step_avg:164.00ms
step:307/1530 train_loss:3.8288 train_time:48709ms step_avg:164.00ms
step:308/1530 train_loss:3.9795 train_time:48875ms step_avg:164.01ms
step:309/1530 train_loss:3.8645 train_time:49040ms step_avg:164.01ms
step:310/1530 train_loss:4.0848 train_time:49206ms step_avg:164.02ms
step:311/1530 train_loss:3.9261 train_time:49373ms step_avg:164.03ms
step:312/1530 train_loss:3.8564 train_time:49537ms step_avg:164.03ms
step:313/1530 train_loss:3.9258 train_time:49703ms step_avg:164.04ms
step:314/1530 train_loss:4.0470 train_time:49869ms step_avg:164.04ms
step:315/1530 train_loss:3.9357 train_time:50034ms step_avg:164.05ms
step:316/1530 train_loss:3.7881 train_time:50199ms step_avg:164.05ms
step:317/1530 train_loss:3.8713 train_time:50364ms step_avg:164.05ms
step:318/1530 train_loss:3.9154 train_time:50530ms step_avg:164.06ms
step:319/1530 train_loss:3.8859 train_time:50697ms step_avg:164.07ms
step:320/1530 train_loss:4.0093 train_time:50862ms step_avg:164.07ms
step:321/1530 train_loss:3.9542 train_time:51027ms step_avg:164.07ms
step:322/1530 train_loss:3.9294 train_time:51193ms step_avg:164.08ms
step:323/1530 train_loss:4.0020 train_time:51358ms step_avg:164.08ms
step:324/1530 train_loss:3.9309 train_time:51523ms step_avg:164.08ms
step:325/1530 train_loss:4.0102 train_time:51688ms step_avg:164.09ms
step:326/1530 train_loss:3.8861 train_time:51854ms step_avg:164.09ms
step:327/1530 train_loss:4.3842 train_time:52019ms step_avg:164.10ms
step:328/1530 train_loss:4.0729 train_time:52184ms step_avg:164.10ms
step:329/1530 train_loss:3.7874 train_time:52350ms step_avg:164.11ms
step:330/1530 train_loss:3.7352 train_time:52515ms step_avg:164.11ms
step:331/1530 train_loss:3.9742 train_time:52680ms step_avg:164.11ms
step:332/1530 train_loss:3.9081 train_time:52845ms step_avg:164.11ms
step:333/1530 train_loss:3.8799 train_time:53009ms step_avg:164.11ms
step:334/1530 train_loss:3.8319 train_time:53175ms step_avg:164.12ms
step:335/1530 train_loss:4.0060 train_time:53338ms step_avg:164.12ms
step:336/1530 train_loss:3.9573 train_time:53503ms step_avg:164.12ms
step:337/1530 train_loss:4.4151 train_time:53670ms step_avg:164.13ms
step:338/1530 train_loss:3.9212 train_time:53835ms step_avg:164.13ms
step:339/1530 train_loss:3.8595 train_time:54000ms step_avg:164.13ms
step:340/1530 train_loss:3.9354 train_time:54166ms step_avg:164.14ms
step:341/1530 train_loss:3.8513 train_time:54333ms step_avg:164.15ms
step:342/1530 train_loss:3.8088 train_time:54500ms step_avg:164.16ms
step:343/1530 train_loss:3.8314 train_time:54668ms step_avg:164.17ms
step:344/1530 train_loss:3.9884 train_time:54836ms step_avg:164.18ms
step:345/1530 train_loss:3.8072 train_time:55005ms step_avg:164.19ms
step:346/1530 train_loss:3.7563 train_time:55175ms step_avg:164.21ms
step:347/1530 train_loss:3.7858 train_time:55342ms step_avg:164.22ms
step:348/1530 train_loss:3.8514 train_time:55510ms step_avg:164.23ms
step:349/1530 train_loss:3.8262 train_time:55678ms step_avg:164.24ms
step:350/1530 train_loss:3.5667 train_time:55846ms step_avg:164.25ms
step:351/1530 train_loss:3.8214 train_time:56015ms step_avg:164.27ms
step:352/1530 train_loss:4.1724 train_time:56183ms step_avg:164.28ms
step:353/1530 train_loss:3.6538 train_time:56352ms step_avg:164.29ms
step:354/1530 train_loss:3.9152 train_time:56519ms step_avg:164.30ms
step:355/1530 train_loss:3.7737 train_time:56688ms step_avg:164.31ms
step:356/1530 train_loss:3.8766 train_time:56856ms step_avg:164.32ms
step:357/1530 train_loss:3.7398 train_time:57024ms step_avg:164.33ms
step:358/1530 train_loss:3.8649 train_time:57193ms step_avg:164.35ms
step:359/1530 train_loss:3.7869 train_time:57361ms step_avg:164.36ms
step:360/1530 train_loss:3.4221 train_time:57531ms step_avg:164.37ms
step:361/1530 train_loss:4.0139 train_time:57700ms step_avg:164.39ms
step:362/1530 train_loss:3.9073 train_time:57869ms step_avg:164.40ms
step:363/1530 train_loss:3.8370 train_time:58036ms step_avg:164.41ms
step:364/1530 train_loss:3.7316 train_time:58204ms step_avg:164.42ms
step:365/1530 train_loss:3.9131 train_time:58373ms step_avg:164.43ms
step:366/1530 train_loss:3.8523 train_time:58540ms step_avg:164.44ms
step:367/1530 train_loss:3.8537 train_time:58708ms step_avg:164.45ms
step:368/1530 train_loss:3.8412 train_time:58877ms step_avg:164.46ms
step:369/1530 train_loss:3.7325 train_time:59043ms step_avg:164.46ms
step:370/1530 train_loss:3.8669 train_time:59211ms step_avg:164.48ms
step:371/1530 train_loss:3.7265 train_time:59379ms step_avg:164.49ms
step:372/1530 train_loss:3.6918 train_time:59548ms step_avg:164.50ms
step:373/1530 train_loss:3.9113 train_time:59716ms step_avg:164.51ms
step:374/1530 train_loss:3.8245 train_time:59883ms step_avg:164.52ms
step:375/1530 train_loss:3.7998 train_time:60051ms step_avg:164.52ms
step:375/1530 val_loss:3.8238 train_time:60099ms step_avg:164.65ms
step:376/1530 train_loss:3.8679 train_time:60222ms step_avg:164.54ms
step:377/1530 train_loss:3.7836 train_time:60522ms step_avg:164.91ms
step:378/1530 train_loss:3.8564 train_time:60698ms step_avg:164.94ms
step:379/1530 train_loss:3.8615 train_time:61022ms step_avg:165.37ms
step:380/1530 train_loss:3.9424 train_time:61188ms step_avg:165.37ms
step:381/1530 train_loss:3.8307 train_time:61357ms step_avg:165.38ms
step:382/1530 train_loss:3.7892 train_time:61526ms step_avg:165.39ms
step:383/1530 train_loss:3.7918 train_time:61694ms step_avg:165.40ms
step:384/1530 train_loss:3.8652 train_time:61861ms step_avg:165.40ms
step:385/1530 train_loss:3.7895 train_time:62030ms step_avg:165.41ms
step:386/1530 train_loss:3.8896 train_time:62196ms step_avg:165.41ms
step:387/1530 train_loss:4.0465 train_time:62365ms step_avg:165.42ms
step:388/1530 train_loss:3.7831 train_time:62532ms step_avg:165.43ms
step:389/1530 train_loss:3.7927 train_time:62700ms step_avg:165.44ms
step:390/1530 train_loss:3.8825 train_time:62869ms step_avg:165.44ms
step:391/1530 train_loss:3.8050 train_time:63035ms step_avg:165.45ms
step:392/1530 train_loss:3.9160 train_time:63203ms step_avg:165.45ms
step:393/1530 train_loss:3.7599 train_time:63370ms step_avg:165.46ms
step:394/1530 train_loss:3.8801 train_time:63538ms step_avg:165.46ms
step:395/1530 train_loss:3.6204 train_time:63707ms step_avg:165.47ms
step:396/1530 train_loss:3.8268 train_time:63874ms step_avg:165.48ms
step:397/1530 train_loss:3.8604 train_time:64043ms step_avg:165.49ms
step:398/1530 train_loss:3.8688 train_time:64210ms step_avg:165.49ms
step:399/1530 train_loss:3.7645 train_time:64376ms step_avg:165.49ms
step:400/1530 train_loss:3.8280 train_time:64547ms step_avg:165.50ms
step:401/1530 train_loss:3.9006 train_time:64715ms step_avg:165.51ms
step:402/1530 train_loss:3.8349 train_time:64882ms step_avg:165.52ms
step:403/1530 train_loss:3.9528 train_time:65049ms step_avg:165.52ms
step:404/1530 train_loss:3.6702 train_time:65217ms step_avg:165.52ms
step:405/1530 train_loss:3.7726 train_time:65384ms step_avg:165.53ms
step:406/1530 train_loss:4.0874 train_time:65552ms step_avg:165.54ms
step:407/1530 train_loss:3.7713 train_time:65720ms step_avg:165.54ms
step:408/1530 train_loss:3.8131 train_time:65885ms step_avg:165.54ms
step:409/1530 train_loss:3.8491 train_time:66053ms step_avg:165.55ms
step:410/1530 train_loss:3.7540 train_time:66221ms step_avg:165.55ms
step:411/1530 train_loss:3.7543 train_time:66387ms step_avg:165.55ms
step:412/1530 train_loss:4.1722 train_time:66556ms step_avg:165.56ms
step:413/1530 train_loss:3.6191 train_time:66725ms step_avg:165.57ms
step:414/1530 train_loss:4.0067 train_time:66892ms step_avg:165.57ms
step:415/1530 train_loss:3.7436 train_time:67059ms step_avg:165.58ms
step:416/1530 train_loss:3.7517 train_time:67226ms step_avg:165.58ms
step:417/1530 train_loss:3.9514 train_time:67393ms step_avg:165.58ms
step:418/1530 train_loss:3.6790 train_time:67562ms step_avg:165.59ms
step:419/1530 train_loss:3.8015 train_time:67729ms step_avg:165.60ms
step:420/1530 train_loss:3.6898 train_time:67895ms step_avg:165.60ms
step:421/1530 train_loss:3.6399 train_time:68062ms step_avg:165.60ms
step:422/1530 train_loss:3.7730 train_time:68229ms step_avg:165.60ms
step:423/1530 train_loss:3.8673 train_time:68397ms step_avg:165.61ms
step:424/1530 train_loss:3.6014 train_time:68564ms step_avg:165.61ms
step:425/1530 train_loss:3.7885 train_time:68731ms step_avg:165.62ms
step:426/1530 train_loss:3.6339 train_time:68899ms step_avg:165.62ms
step:427/1530 train_loss:3.8800 train_time:69065ms step_avg:165.62ms
step:428/1530 train_loss:3.8006 train_time:69233ms step_avg:165.63ms
step:429/1530 train_loss:3.7557 train_time:69401ms step_avg:165.63ms
step:430/1530 train_loss:3.6981 train_time:69567ms step_avg:165.64ms
step:431/1530 train_loss:3.6206 train_time:69734ms step_avg:165.64ms
step:432/1530 train_loss:3.7617 train_time:69901ms step_avg:165.64ms
step:433/1530 train_loss:3.8051 train_time:70067ms step_avg:165.64ms
step:434/1530 train_loss:3.7637 train_time:70234ms step_avg:165.65ms
step:435/1530 train_loss:3.7978 train_time:70400ms step_avg:165.65ms
step:436/1530 train_loss:3.8237 train_time:70567ms step_avg:165.65ms
step:437/1530 train_loss:3.7081 train_time:70735ms step_avg:165.66ms
step:438/1530 train_loss:3.6925 train_time:70902ms step_avg:165.66ms
step:439/1530 train_loss:3.7037 train_time:71069ms step_avg:165.66ms
step:440/1530 train_loss:3.8819 train_time:71236ms step_avg:165.66ms
step:441/1530 train_loss:3.7462 train_time:71405ms step_avg:165.67ms
step:442/1530 train_loss:3.7319 train_time:71574ms step_avg:165.68ms
step:443/1530 train_loss:3.6108 train_time:71743ms step_avg:165.69ms
step:444/1530 train_loss:3.9217 train_time:71910ms step_avg:165.69ms
step:445/1530 train_loss:3.8374 train_time:72076ms step_avg:165.69ms
step:446/1530 train_loss:3.8278 train_time:72245ms step_avg:165.70ms
step:447/1530 train_loss:3.7456 train_time:72412ms step_avg:165.70ms
step:448/1530 train_loss:3.8440 train_time:72579ms step_avg:165.71ms
step:449/1530 train_loss:3.6838 train_time:72747ms step_avg:165.71ms
step:450/1530 train_loss:3.7082 train_time:72913ms step_avg:165.71ms
step:451/1530 train_loss:3.5787 train_time:73081ms step_avg:165.72ms
step:452/1530 train_loss:3.7000 train_time:73248ms step_avg:165.72ms
step:453/1530 train_loss:3.6560 train_time:73416ms step_avg:165.72ms
step:454/1530 train_loss:3.6275 train_time:73584ms step_avg:165.73ms
step:455/1530 train_loss:3.8351 train_time:73751ms step_avg:165.73ms
step:456/1530 train_loss:3.7187 train_time:73921ms step_avg:165.74ms
step:457/1530 train_loss:3.7754 train_time:74090ms step_avg:165.75ms
step:458/1530 train_loss:3.8212 train_time:74259ms step_avg:165.76ms
step:459/1530 train_loss:3.6281 train_time:74431ms step_avg:165.77ms
step:460/1530 train_loss:3.7868 train_time:74599ms step_avg:165.77ms
step:461/1530 train_loss:3.6796 train_time:74771ms step_avg:165.79ms
step:462/1530 train_loss:3.7293 train_time:74941ms step_avg:165.80ms
step:463/1530 train_loss:3.7658 train_time:75111ms step_avg:165.81ms
step:464/1530 train_loss:3.7039 train_time:75281ms step_avg:165.82ms
step:465/1530 train_loss:3.7068 train_time:75450ms step_avg:165.82ms
step:466/1530 train_loss:3.7876 train_time:75619ms step_avg:165.83ms
step:467/1530 train_loss:3.8152 train_time:75789ms step_avg:165.84ms
step:468/1530 train_loss:3.7885 train_time:75958ms step_avg:165.85ms
step:469/1530 train_loss:3.6825 train_time:76129ms step_avg:165.86ms
step:470/1530 train_loss:3.7568 train_time:76298ms step_avg:165.87ms
step:471/1530 train_loss:3.7968 train_time:76469ms step_avg:165.88ms
step:472/1530 train_loss:3.7806 train_time:76642ms step_avg:165.89ms
step:473/1530 train_loss:3.7087 train_time:76811ms step_avg:165.90ms
step:474/1530 train_loss:3.5853 train_time:76981ms step_avg:165.91ms
step:475/1530 train_loss:4.0065 train_time:77150ms step_avg:165.91ms
step:476/1530 train_loss:3.7471 train_time:77320ms step_avg:165.92ms
step:477/1530 train_loss:3.5831 train_time:77490ms step_avg:165.93ms
step:478/1530 train_loss:3.8210 train_time:77658ms step_avg:165.94ms
step:479/1530 train_loss:3.7624 train_time:77829ms step_avg:165.95ms
step:480/1530 train_loss:3.9106 train_time:77999ms step_avg:165.96ms
step:481/1530 train_loss:3.7183 train_time:78168ms step_avg:165.96ms
step:482/1530 train_loss:3.5252 train_time:78338ms step_avg:165.97ms
step:483/1530 train_loss:3.7983 train_time:78507ms step_avg:165.98ms
step:484/1530 train_loss:3.6541 train_time:78677ms step_avg:165.99ms
step:485/1530 train_loss:3.6461 train_time:78847ms step_avg:165.99ms
step:486/1530 train_loss:3.5637 train_time:79017ms step_avg:166.00ms
step:487/1530 train_loss:3.6776 train_time:79187ms step_avg:166.01ms
step:488/1530 train_loss:3.8729 train_time:79356ms step_avg:166.02ms
step:489/1530 train_loss:3.7027 train_time:79527ms step_avg:166.03ms
step:490/1530 train_loss:3.5848 train_time:79696ms step_avg:166.03ms
step:491/1530 train_loss:3.6059 train_time:79866ms step_avg:166.04ms
step:492/1530 train_loss:3.7241 train_time:80036ms step_avg:166.05ms
step:493/1530 train_loss:3.5718 train_time:80207ms step_avg:166.06ms
step:494/1530 train_loss:3.6943 train_time:80375ms step_avg:166.07ms
step:495/1530 train_loss:3.6534 train_time:80547ms step_avg:166.08ms
step:496/1530 train_loss:3.4956 train_time:80719ms step_avg:166.09ms
step:497/1530 train_loss:3.7226 train_time:80887ms step_avg:166.09ms
step:498/1530 train_loss:3.7766 train_time:81056ms step_avg:166.10ms
step:499/1530 train_loss:3.8119 train_time:81227ms step_avg:166.11ms
step:500/1530 train_loss:3.7236 train_time:81397ms step_avg:166.12ms
step:500/1530 val_loss:3.6985 train_time:81446ms step_avg:166.22ms
step:501/1530 train_loss:3.8014 train_time:81570ms step_avg:166.13ms
step:502/1530 train_loss:3.7444 train_time:81737ms step_avg:166.13ms
step:503/1530 train_loss:3.7681 train_time:81909ms step_avg:166.14ms
step:504/1530 train_loss:3.7126 train_time:82077ms step_avg:166.15ms
step:505/1530 train_loss:3.7950 train_time:82248ms step_avg:166.16ms
step:506/1530 train_loss:3.6389 train_time:82416ms step_avg:166.16ms
step:507/1530 train_loss:3.7667 train_time:82587ms step_avg:166.17ms
step:508/1530 train_loss:3.8170 train_time:82757ms step_avg:166.18ms
step:509/1530 train_loss:3.7694 train_time:82927ms step_avg:166.19ms
step:510/1530 train_loss:3.5741 train_time:83095ms step_avg:166.19ms
step:511/1530 train_loss:3.7737 train_time:83267ms step_avg:166.20ms
step:512/1530 train_loss:3.7069 train_time:83435ms step_avg:166.20ms
step:513/1530 train_loss:3.6604 train_time:83605ms step_avg:166.21ms
step:514/1530 train_loss:3.7810 train_time:83774ms step_avg:166.22ms
step:515/1530 train_loss:3.7280 train_time:83944ms step_avg:166.23ms
step:516/1530 train_loss:4.0690 train_time:84114ms step_avg:166.23ms
step:517/1530 train_loss:3.6854 train_time:84284ms step_avg:166.24ms
step:518/1530 train_loss:3.7623 train_time:84451ms step_avg:166.24ms
step:519/1530 train_loss:3.6456 train_time:84620ms step_avg:166.25ms
step:520/1530 train_loss:3.6777 train_time:84790ms step_avg:166.25ms
step:521/1530 train_loss:3.6537 train_time:84958ms step_avg:166.26ms
step:522/1530 train_loss:3.6462 train_time:85128ms step_avg:166.27ms
step:523/1530 train_loss:4.2717 train_time:85296ms step_avg:166.27ms
step:524/1530 train_loss:3.7275 train_time:85467ms step_avg:166.28ms
step:525/1530 train_loss:3.6711 train_time:85635ms step_avg:166.28ms
step:526/1530 train_loss:3.6848 train_time:85804ms step_avg:166.29ms
step:527/1530 train_loss:3.6473 train_time:85972ms step_avg:166.29ms
step:528/1530 train_loss:3.6246 train_time:86142ms step_avg:166.30ms
step:529/1530 train_loss:3.8436 train_time:86311ms step_avg:166.30ms
step:530/1530 train_loss:3.6505 train_time:86480ms step_avg:166.31ms
step:531/1530 train_loss:3.9114 train_time:86649ms step_avg:166.31ms
step:532/1530 train_loss:3.7218 train_time:86818ms step_avg:166.32ms
step:533/1530 train_loss:3.6391 train_time:86987ms step_avg:166.32ms
step:534/1530 train_loss:3.6573 train_time:87155ms step_avg:166.33ms
step:535/1530 train_loss:3.5962 train_time:87325ms step_avg:166.33ms
step:536/1530 train_loss:3.7486 train_time:87495ms step_avg:166.34ms
step:537/1530 train_loss:3.7171 train_time:87667ms step_avg:166.35ms
step:538/1530 train_loss:3.6165 train_time:87836ms step_avg:166.36ms
step:539/1530 train_loss:4.1113 train_time:88008ms step_avg:166.37ms
step:540/1530 train_loss:3.6667 train_time:88176ms step_avg:166.37ms
step:541/1530 train_loss:3.7708 train_time:88346ms step_avg:166.38ms
step:542/1530 train_loss:3.5787 train_time:88516ms step_avg:166.38ms
step:543/1530 train_loss:3.5730 train_time:88687ms step_avg:166.39ms
step:544/1530 train_loss:3.6262 train_time:88855ms step_avg:166.39ms
step:545/1530 train_loss:3.5812 train_time:89025ms step_avg:166.40ms
step:546/1530 train_loss:3.6141 train_time:89194ms step_avg:166.41ms
step:547/1530 train_loss:3.6351 train_time:89362ms step_avg:166.41ms
step:548/1530 train_loss:3.6046 train_time:89532ms step_avg:166.42ms
step:549/1530 train_loss:3.7128 train_time:89699ms step_avg:166.42ms
step:550/1530 train_loss:3.6138 train_time:89869ms step_avg:166.42ms
step:551/1530 train_loss:3.6241 train_time:90037ms step_avg:166.43ms
step:552/1530 train_loss:3.9285 train_time:90207ms step_avg:166.43ms
step:553/1530 train_loss:3.7548 train_time:90376ms step_avg:166.44ms
step:554/1530 train_loss:3.7022 train_time:90545ms step_avg:166.44ms
step:555/1530 train_loss:3.6225 train_time:90713ms step_avg:166.45ms
step:556/1530 train_loss:3.6905 train_time:90881ms step_avg:166.45ms
step:557/1530 train_loss:3.3081 train_time:91050ms step_avg:166.45ms
step:558/1530 train_loss:3.6080 train_time:91220ms step_avg:166.46ms
step:559/1530 train_loss:3.6423 train_time:91389ms step_avg:166.46ms
step:560/1530 train_loss:3.6783 train_time:91558ms step_avg:166.47ms
step:561/1530 train_loss:3.6030 train_time:91727ms step_avg:166.47ms
step:562/1530 train_loss:3.5460 train_time:91896ms step_avg:166.48ms
step:563/1530 train_loss:3.7513 train_time:92066ms step_avg:166.49ms
step:564/1530 train_loss:3.5682 train_time:92235ms step_avg:166.49ms
step:565/1530 train_loss:3.6694 train_time:92405ms step_avg:166.49ms
step:566/1530 train_loss:3.6082 train_time:92707ms step_avg:166.74ms
step:567/1530 train_loss:3.5898 train_time:92885ms step_avg:166.76ms
step:568/1530 train_loss:3.6783 train_time:93056ms step_avg:166.77ms
step:569/1530 train_loss:3.6366 train_time:93384ms step_avg:167.06ms
step:570/1530 train_loss:3.6764 train_time:93554ms step_avg:167.06ms
step:571/1530 train_loss:3.7444 train_time:93724ms step_avg:167.07ms
step:572/1530 train_loss:3.7250 train_time:93895ms step_avg:167.07ms
step:573/1530 train_loss:3.7293 train_time:94068ms step_avg:167.08ms
step:574/1530 train_loss:3.7700 train_time:94239ms step_avg:167.09ms
step:575/1530 train_loss:3.7184 train_time:94410ms step_avg:167.10ms
step:576/1530 train_loss:3.7506 train_time:94581ms step_avg:167.10ms
step:577/1530 train_loss:3.6631 train_time:94752ms step_avg:167.11ms
step:578/1530 train_loss:3.6668 train_time:94924ms step_avg:167.12ms
step:579/1530 train_loss:3.6673 train_time:95095ms step_avg:167.13ms
step:580/1530 train_loss:3.5784 train_time:95267ms step_avg:167.14ms
step:581/1530 train_loss:3.6326 train_time:95437ms step_avg:167.14ms
step:582/1530 train_loss:3.8380 train_time:95608ms step_avg:167.15ms
step:583/1530 train_loss:3.6193 train_time:95780ms step_avg:167.16ms
step:584/1530 train_loss:3.5845 train_time:95952ms step_avg:167.16ms
step:585/1530 train_loss:3.7897 train_time:96122ms step_avg:167.17ms
step:586/1530 train_loss:3.5089 train_time:96294ms step_avg:167.18ms
step:587/1530 train_loss:3.6601 train_time:96466ms step_avg:167.19ms
step:588/1530 train_loss:3.6351 train_time:96635ms step_avg:167.19ms
step:589/1530 train_loss:3.9880 train_time:96809ms step_avg:167.20ms
step:590/1530 train_loss:3.7717 train_time:96981ms step_avg:167.21ms
step:591/1530 train_loss:3.4935 train_time:97152ms step_avg:167.21ms
step:592/1530 train_loss:3.5299 train_time:97325ms step_avg:167.23ms
step:593/1530 train_loss:3.4908 train_time:97497ms step_avg:167.23ms
step:594/1530 train_loss:3.5460 train_time:97670ms step_avg:167.24ms
step:595/1530 train_loss:3.8976 train_time:97844ms step_avg:167.25ms
step:596/1530 train_loss:3.6360 train_time:98017ms step_avg:167.26ms
step:597/1530 train_loss:3.5773 train_time:98188ms step_avg:167.27ms
step:598/1530 train_loss:3.6499 train_time:98358ms step_avg:167.27ms
step:599/1530 train_loss:3.4726 train_time:98528ms step_avg:167.28ms
step:600/1530 train_loss:3.5906 train_time:98698ms step_avg:167.29ms
step:601/1530 train_loss:3.6433 train_time:98872ms step_avg:167.30ms
step:602/1530 train_loss:3.6629 train_time:99047ms step_avg:167.31ms
step:603/1530 train_loss:3.7756 train_time:99217ms step_avg:167.31ms
step:604/1530 train_loss:3.5982 train_time:99389ms step_avg:167.32ms
step:605/1530 train_loss:3.6026 train_time:99562ms step_avg:167.33ms
step:606/1530 train_loss:3.5645 train_time:99734ms step_avg:167.34ms
step:607/1530 train_loss:3.8279 train_time:99908ms step_avg:167.35ms
step:608/1530 train_loss:3.6247 train_time:100079ms step_avg:167.36ms
step:609/1530 train_loss:3.6078 train_time:100250ms step_avg:167.36ms
step:610/1530 train_loss:3.6972 train_time:100419ms step_avg:167.36ms
step:611/1530 train_loss:3.5909 train_time:100591ms step_avg:167.37ms
step:612/1530 train_loss:3.5636 train_time:100763ms step_avg:167.38ms
step:613/1530 train_loss:3.7496 train_time:100934ms step_avg:167.39ms
step:614/1530 train_loss:3.6903 train_time:101107ms step_avg:167.40ms
step:615/1530 train_loss:3.6894 train_time:101278ms step_avg:167.40ms
step:616/1530 train_loss:3.6205 train_time:101448ms step_avg:167.41ms
step:617/1530 train_loss:3.5464 train_time:101618ms step_avg:167.41ms
step:618/1530 train_loss:3.6817 train_time:101790ms step_avg:167.42ms
step:619/1530 train_loss:3.5374 train_time:101962ms step_avg:167.43ms
step:620/1530 train_loss:3.5759 train_time:102133ms step_avg:167.43ms
step:621/1530 train_loss:3.9193 train_time:102306ms step_avg:167.44ms
step:622/1530 train_loss:3.5623 train_time:102479ms step_avg:167.45ms
step:623/1530 train_loss:3.5931 train_time:102651ms step_avg:167.46ms
step:624/1530 train_loss:3.6821 train_time:102823ms step_avg:167.46ms
step:625/1530 train_loss:3.6998 train_time:102993ms step_avg:167.47ms
step:625/1530 val_loss:3.6139 train_time:103043ms step_avg:167.55ms
step:626/1530 train_loss:3.7285 train_time:103164ms step_avg:167.47ms
step:627/1530 train_loss:3.7005 train_time:103337ms step_avg:167.48ms
step:628/1530 train_loss:3.7527 train_time:103507ms step_avg:167.49ms
step:629/1530 train_loss:3.5820 train_time:103680ms step_avg:167.50ms
step:630/1530 train_loss:3.7177 train_time:103849ms step_avg:167.50ms
step:631/1530 train_loss:3.7315 train_time:104021ms step_avg:167.51ms
step:632/1530 train_loss:3.6396 train_time:104192ms step_avg:167.51ms
step:633/1530 train_loss:3.5964 train_time:104363ms step_avg:167.52ms
step:634/1530 train_loss:3.6892 train_time:104534ms step_avg:167.52ms
step:635/1530 train_loss:3.9466 train_time:104704ms step_avg:167.53ms
step:636/1530 train_loss:3.5363 train_time:104875ms step_avg:167.53ms
step:637/1530 train_loss:3.3450 train_time:105045ms step_avg:167.54ms
step:638/1530 train_loss:3.5885 train_time:105215ms step_avg:167.54ms
step:639/1530 train_loss:3.6167 train_time:105386ms step_avg:167.54ms
step:640/1530 train_loss:3.5623 train_time:105557ms step_avg:167.55ms
step:641/1530 train_loss:3.5808 train_time:105726ms step_avg:167.55ms
step:642/1530 train_loss:3.6246 train_time:105896ms step_avg:167.56ms
step:643/1530 train_loss:3.5841 train_time:106066ms step_avg:167.56ms
step:644/1530 train_loss:3.5456 train_time:106235ms step_avg:167.56ms
step:645/1530 train_loss:3.7690 train_time:106407ms step_avg:167.57ms
step:646/1530 train_loss:3.6593 train_time:106578ms step_avg:167.58ms
step:647/1530 train_loss:3.6552 train_time:106749ms step_avg:167.58ms
step:648/1530 train_loss:3.7064 train_time:106923ms step_avg:167.59ms
step:649/1530 train_loss:3.7565 train_time:107094ms step_avg:167.60ms
step:650/1530 train_loss:3.6150 train_time:107263ms step_avg:167.60ms
step:651/1530 train_loss:3.7581 train_time:107435ms step_avg:167.61ms
step:652/1530 train_loss:3.5716 train_time:107605ms step_avg:167.61ms
step:653/1530 train_loss:3.6572 train_time:107775ms step_avg:167.61ms
step:654/1530 train_loss:3.4202 train_time:107946ms step_avg:167.62ms
step:655/1530 train_loss:3.5728 train_time:108117ms step_avg:167.62ms
step:656/1530 train_loss:3.5653 train_time:108286ms step_avg:167.62ms
step:657/1530 train_loss:3.4866 train_time:108457ms step_avg:167.63ms
step:658/1530 train_loss:3.6792 train_time:108627ms step_avg:167.63ms
step:659/1530 train_loss:3.5791 train_time:108799ms step_avg:167.64ms
step:660/1530 train_loss:3.6741 train_time:108969ms step_avg:167.64ms
step:661/1530 train_loss:3.7488 train_time:109141ms step_avg:167.65ms
step:662/1530 train_loss:3.6626 train_time:109311ms step_avg:167.66ms
step:663/1530 train_loss:3.5449 train_time:109481ms step_avg:167.66ms
step:664/1530 train_loss:3.6009 train_time:109652ms step_avg:167.66ms
step:665/1530 train_loss:3.4898 train_time:109823ms step_avg:167.67ms
step:666/1530 train_loss:3.7711 train_time:109993ms step_avg:167.67ms
step:667/1530 train_loss:3.5937 train_time:110163ms step_avg:167.68ms
step:668/1530 train_loss:3.6375 train_time:110333ms step_avg:167.68ms
step:669/1530 train_loss:3.4772 train_time:110506ms step_avg:167.69ms
step:670/1530 train_loss:3.5950 train_time:110676ms step_avg:167.69ms
step:671/1530 train_loss:3.5525 train_time:110846ms step_avg:167.69ms
step:672/1530 train_loss:3.5578 train_time:111020ms step_avg:167.70ms
step:673/1530 train_loss:3.8360 train_time:111189ms step_avg:167.71ms
step:674/1530 train_loss:3.6169 train_time:111360ms step_avg:167.71ms
step:675/1530 train_loss:3.7033 train_time:111532ms step_avg:167.72ms
step:676/1530 train_loss:3.4827 train_time:111704ms step_avg:167.72ms
step:677/1530 train_loss:3.5956 train_time:111875ms step_avg:167.73ms
step:678/1530 train_loss:3.5459 train_time:112046ms step_avg:167.73ms
step:679/1530 train_loss:3.6672 train_time:112220ms step_avg:167.74ms
step:680/1530 train_loss:3.5773 train_time:112390ms step_avg:167.75ms
step:681/1530 train_loss:3.6076 train_time:112562ms step_avg:167.75ms
step:682/1530 train_loss:3.6589 train_time:112738ms step_avg:167.76ms
step:683/1530 train_loss:3.7291 train_time:112910ms step_avg:167.77ms
step:684/1530 train_loss:3.6427 train_time:113082ms step_avg:167.78ms
step:685/1530 train_loss:3.6767 train_time:113254ms step_avg:167.78ms
step:686/1530 train_loss:3.6329 train_time:113427ms step_avg:167.79ms
step:687/1530 train_loss:3.6576 train_time:113600ms step_avg:167.80ms
step:688/1530 train_loss:3.2053 train_time:113775ms step_avg:167.81ms
step:689/1530 train_loss:3.4012 train_time:113949ms step_avg:167.82ms
step:690/1530 train_loss:3.5300 train_time:114124ms step_avg:167.83ms
step:691/1530 train_loss:3.4035 train_time:114297ms step_avg:167.84ms
step:692/1530 train_loss:3.6154 train_time:114469ms step_avg:167.84ms
step:693/1530 train_loss:3.6394 train_time:114643ms step_avg:167.85ms
step:694/1530 train_loss:3.5410 train_time:114816ms step_avg:167.86ms
step:695/1530 train_loss:3.5229 train_time:114987ms step_avg:167.86ms
step:696/1530 train_loss:3.8453 train_time:115160ms step_avg:167.87ms
step:697/1530 train_loss:3.5758 train_time:115332ms step_avg:167.88ms
step:698/1530 train_loss:3.6382 train_time:115504ms step_avg:167.88ms
step:699/1530 train_loss:3.7553 train_time:115678ms step_avg:167.89ms
step:700/1530 train_loss:3.5618 train_time:115850ms step_avg:167.90ms
step:701/1530 train_loss:3.5324 train_time:116023ms step_avg:167.91ms
step:702/1530 train_loss:3.5063 train_time:116196ms step_avg:167.91ms
step:703/1530 train_loss:3.4927 train_time:116368ms step_avg:167.92ms
step:704/1530 train_loss:3.5655 train_time:116541ms step_avg:167.93ms
step:705/1530 train_loss:3.5588 train_time:116715ms step_avg:167.94ms
step:706/1530 train_loss:3.5741 train_time:116891ms step_avg:167.95ms
step:707/1530 train_loss:3.6389 train_time:117064ms step_avg:167.95ms
step:708/1530 train_loss:3.5956 train_time:117237ms step_avg:167.96ms
step:709/1530 train_loss:3.5760 train_time:117409ms step_avg:167.97ms
step:710/1530 train_loss:3.5304 train_time:117580ms step_avg:167.97ms
step:711/1530 train_loss:3.5844 train_time:117753ms step_avg:167.98ms
step:712/1530 train_loss:3.6387 train_time:117929ms step_avg:167.99ms
step:713/1530 train_loss:3.6471 train_time:118106ms step_avg:168.00ms
step:714/1530 train_loss:3.5516 train_time:118278ms step_avg:168.01ms
step:715/1530 train_loss:3.5612 train_time:118450ms step_avg:168.01ms
step:716/1530 train_loss:3.5762 train_time:118622ms step_avg:168.02ms
step:717/1530 train_loss:3.6949 train_time:118797ms step_avg:168.03ms
step:718/1530 train_loss:3.5869 train_time:118968ms step_avg:168.03ms
step:719/1530 train_loss:3.6681 train_time:119143ms step_avg:168.04ms
step:720/1530 train_loss:3.8295 train_time:119320ms step_avg:168.06ms
step:721/1530 train_loss:3.4581 train_time:119493ms step_avg:168.06ms
step:722/1530 train_loss:3.7285 train_time:119665ms step_avg:168.07ms
step:723/1530 train_loss:3.7613 train_time:119836ms step_avg:168.07ms
step:724/1530 train_loss:3.5632 train_time:120008ms step_avg:168.08ms
step:725/1530 train_loss:3.6456 train_time:120181ms step_avg:168.09ms
step:726/1530 train_loss:3.5218 train_time:120353ms step_avg:168.09ms
step:727/1530 train_loss:3.5725 train_time:120528ms step_avg:168.10ms
step:728/1530 train_loss:3.7230 train_time:120702ms step_avg:168.11ms
step:729/1530 train_loss:3.6599 train_time:120874ms step_avg:168.11ms
step:730/1530 train_loss:3.6420 train_time:121047ms step_avg:168.12ms
step:731/1530 train_loss:3.5461 train_time:121222ms step_avg:168.13ms
step:732/1530 train_loss:3.5864 train_time:121394ms step_avg:168.14ms
step:733/1530 train_loss:3.8230 train_time:121567ms step_avg:168.14ms
step:734/1530 train_loss:3.5547 train_time:121743ms step_avg:168.15ms
step:735/1530 train_loss:3.6090 train_time:121916ms step_avg:168.16ms
step:736/1530 train_loss:3.7306 train_time:122090ms step_avg:168.17ms
step:737/1530 train_loss:3.6707 train_time:122262ms step_avg:168.17ms
step:738/1530 train_loss:3.5932 train_time:122433ms step_avg:168.18ms
step:739/1530 train_loss:3.4911 train_time:122605ms step_avg:168.18ms
step:740/1530 train_loss:4.1029 train_time:122783ms step_avg:168.20ms
step:741/1530 train_loss:3.4804 train_time:122956ms step_avg:168.20ms
step:742/1530 train_loss:3.5426 train_time:123128ms step_avg:168.21ms
step:743/1530 train_loss:3.5715 train_time:123302ms step_avg:168.22ms
step:744/1530 train_loss:3.6411 train_time:123474ms step_avg:168.22ms
step:745/1530 train_loss:3.5788 train_time:123647ms step_avg:168.23ms
step:746/1530 train_loss:3.5848 train_time:123820ms step_avg:168.23ms
step:747/1530 train_loss:3.6397 train_time:123991ms step_avg:168.24ms
step:748/1530 train_loss:3.5523 train_time:124167ms step_avg:168.25ms
step:749/1530 train_loss:3.5501 train_time:124341ms step_avg:168.26ms
step:750/1530 train_loss:3.5892 train_time:124511ms step_avg:168.26ms
step:750/1530 val_loss:3.5563 train_time:124561ms step_avg:168.33ms
step:751/1530 train_loss:3.5617 train_time:124686ms step_avg:168.27ms
step:752/1530 train_loss:3.6089 train_time:124857ms step_avg:168.27ms
step:753/1530 train_loss:3.6167 train_time:125030ms step_avg:168.28ms
step:754/1530 train_loss:3.5880 train_time:125204ms step_avg:168.28ms
step:755/1530 train_loss:3.6714 train_time:125509ms step_avg:168.47ms
step:756/1530 train_loss:3.4469 train_time:125693ms step_avg:168.49ms
step:757/1530 train_loss:3.7142 train_time:125866ms step_avg:168.49ms
step:758/1530 train_loss:3.6410 train_time:126037ms step_avg:168.50ms
step:759/1530 train_loss:3.5816 train_time:126364ms step_avg:168.71ms
step:760/1530 train_loss:3.6951 train_time:126535ms step_avg:168.71ms
step:761/1530 train_loss:3.3910 train_time:126707ms step_avg:168.72ms
step:762/1530 train_loss:3.5437 train_time:126877ms step_avg:168.72ms
step:763/1530 train_loss:3.6531 train_time:127050ms step_avg:168.73ms
step:764/1530 train_loss:3.3099 train_time:127221ms step_avg:168.73ms
step:765/1530 train_loss:3.7259 train_time:127393ms step_avg:168.73ms
step:766/1530 train_loss:3.5593 train_time:127567ms step_avg:168.74ms
step:767/1530 train_loss:3.5543 train_time:127740ms step_avg:168.75ms
step:768/1530 train_loss:3.5615 train_time:127912ms step_avg:168.75ms
step:769/1530 train_loss:3.5781 train_time:128086ms step_avg:168.76ms
step:770/1530 train_loss:3.6275 train_time:128256ms step_avg:168.76ms
step:771/1530 train_loss:3.8795 train_time:128430ms step_avg:168.76ms
step:772/1530 train_loss:3.4443 train_time:128601ms step_avg:168.77ms
step:773/1530 train_loss:3.6230 train_time:128772ms step_avg:168.77ms
step:774/1530 train_loss:3.6355 train_time:128945ms step_avg:168.78ms
step:775/1530 train_loss:3.6001 train_time:129118ms step_avg:168.78ms
step:776/1530 train_loss:3.3911 train_time:129289ms step_avg:168.79ms
step:777/1530 train_loss:3.3796 train_time:129462ms step_avg:168.79ms
step:778/1530 train_loss:3.4872 train_time:129634ms step_avg:168.79ms
step:779/1530 train_loss:3.5738 train_time:129807ms step_avg:168.80ms
step:780/1530 train_loss:3.5777 train_time:129980ms step_avg:168.81ms
step:781/1530 train_loss:3.6590 train_time:130152ms step_avg:168.81ms
step:782/1530 train_loss:3.5908 train_time:130325ms step_avg:168.81ms
step:783/1530 train_loss:3.5594 train_time:130496ms step_avg:168.82ms
step:784/1530 train_loss:3.5854 train_time:130668ms step_avg:168.82ms
step:785/1530 train_loss:3.5508 train_time:130839ms step_avg:168.82ms
step:786/1530 train_loss:3.4300 train_time:131011ms step_avg:168.83ms
step:787/1530 train_loss:3.7231 train_time:131183ms step_avg:168.83ms
step:788/1530 train_loss:3.4921 train_time:131356ms step_avg:168.84ms
step:789/1530 train_loss:3.5400 train_time:131527ms step_avg:168.84ms
step:790/1530 train_loss:3.6162 train_time:131700ms step_avg:168.85ms
step:791/1530 train_loss:3.7605 train_time:131874ms step_avg:168.85ms
step:792/1530 train_loss:3.7584 train_time:132048ms step_avg:168.86ms
step:793/1530 train_loss:3.4377 train_time:132220ms step_avg:168.86ms
step:794/1530 train_loss:3.5810 train_time:132392ms step_avg:168.87ms
step:795/1530 train_loss:3.6631 train_time:132567ms step_avg:168.88ms
step:796/1530 train_loss:3.7331 train_time:132745ms step_avg:168.89ms
step:797/1530 train_loss:3.5222 train_time:132919ms step_avg:168.89ms
step:798/1530 train_loss:3.6336 train_time:133093ms step_avg:168.90ms
step:799/1530 train_loss:3.5221 train_time:133271ms step_avg:168.91ms
step:800/1530 train_loss:3.5174 train_time:133444ms step_avg:168.92ms
step:801/1530 train_loss:3.6272 train_time:133617ms step_avg:168.92ms
step:802/1530 train_loss:3.4924 train_time:133793ms step_avg:168.93ms
step:803/1530 train_loss:3.4806 train_time:133966ms step_avg:168.94ms
step:804/1530 train_loss:3.6172 train_time:134139ms step_avg:168.94ms
step:805/1530 train_loss:3.5059 train_time:134316ms step_avg:168.95ms
step:806/1530 train_loss:3.5500 train_time:134490ms step_avg:168.96ms
step:807/1530 train_loss:3.6400 train_time:134664ms step_avg:168.96ms
step:808/1530 train_loss:3.5369 train_time:134841ms step_avg:168.97ms
step:809/1530 train_loss:3.4827 train_time:135016ms step_avg:168.98ms
step:810/1530 train_loss:3.5564 train_time:135188ms step_avg:168.99ms
step:811/1530 train_loss:3.5702 train_time:135363ms step_avg:168.99ms
step:812/1530 train_loss:3.5882 train_time:135536ms step_avg:169.00ms
step:813/1530 train_loss:3.6162 train_time:135707ms step_avg:169.00ms
step:814/1530 train_loss:3.5546 train_time:135882ms step_avg:169.01ms
step:815/1530 train_loss:3.5584 train_time:136055ms step_avg:169.01ms
step:816/1530 train_loss:3.6753 train_time:136230ms step_avg:169.02ms
step:817/1530 train_loss:3.7610 train_time:136403ms step_avg:169.02ms
step:818/1530 train_loss:3.5199 train_time:136575ms step_avg:169.03ms
step:819/1530 train_loss:3.7139 train_time:136749ms step_avg:169.04ms
step:820/1530 train_loss:3.4854 train_time:136925ms step_avg:169.04ms
step:821/1530 train_loss:3.5587 train_time:137098ms step_avg:169.05ms
step:822/1530 train_loss:3.6890 train_time:137274ms step_avg:169.06ms
step:823/1530 train_loss:3.5682 train_time:137449ms step_avg:169.06ms
step:824/1530 train_loss:3.5063 train_time:137622ms step_avg:169.07ms
step:825/1530 train_loss:3.6025 train_time:137795ms step_avg:169.07ms
step:826/1530 train_loss:3.4736 train_time:137971ms step_avg:169.08ms
step:827/1530 train_loss:3.7208 train_time:138145ms step_avg:169.09ms
step:828/1530 train_loss:3.6095 train_time:138318ms step_avg:169.09ms
step:829/1530 train_loss:3.6129 train_time:138493ms step_avg:169.10ms
step:830/1530 train_loss:3.5319 train_time:138668ms step_avg:169.11ms
step:831/1530 train_loss:3.5910 train_time:138841ms step_avg:169.11ms
step:832/1530 train_loss:3.5043 train_time:139015ms step_avg:169.12ms
step:833/1530 train_loss:3.6432 train_time:139190ms step_avg:169.13ms
step:834/1530 train_loss:3.4654 train_time:139364ms step_avg:169.13ms
step:835/1530 train_loss:3.4500 train_time:139537ms step_avg:169.14ms
step:836/1530 train_loss:3.7048 train_time:139714ms step_avg:169.15ms
step:837/1530 train_loss:3.3951 train_time:139887ms step_avg:169.15ms
step:838/1530 train_loss:3.5823 train_time:140061ms step_avg:169.16ms
step:839/1530 train_loss:3.4147 train_time:140235ms step_avg:169.16ms
step:840/1530 train_loss:3.4605 train_time:140408ms step_avg:169.17ms
step:841/1530 train_loss:3.5656 train_time:140581ms step_avg:169.17ms
step:842/1530 train_loss:3.5758 train_time:140755ms step_avg:169.18ms
step:843/1530 train_loss:3.5512 train_time:140929ms step_avg:169.18ms
step:844/1530 train_loss:3.4235 train_time:141102ms step_avg:169.19ms
step:845/1530 train_loss:3.6554 train_time:141276ms step_avg:169.19ms
step:846/1530 train_loss:3.5097 train_time:141452ms step_avg:169.20ms
step:847/1530 train_loss:3.4872 train_time:141628ms step_avg:169.21ms
step:848/1530 train_loss:3.6344 train_time:141803ms step_avg:169.22ms
step:849/1530 train_loss:3.4791 train_time:141976ms step_avg:169.22ms
step:850/1530 train_loss:3.4373 train_time:142150ms step_avg:169.23ms
step:851/1530 train_loss:3.7256 train_time:142324ms step_avg:169.23ms
step:852/1530 train_loss:3.4238 train_time:142497ms step_avg:169.24ms
step:853/1530 train_loss:3.5581 train_time:142670ms step_avg:169.24ms
step:854/1530 train_loss:3.6432 train_time:142846ms step_avg:169.25ms
step:855/1530 train_loss:3.5096 train_time:143018ms step_avg:169.25ms
step:856/1530 train_loss:3.5362 train_time:143190ms step_avg:169.26ms
step:857/1530 train_loss:3.5984 train_time:143365ms step_avg:169.26ms
step:858/1530 train_loss:3.4567 train_time:143544ms step_avg:169.27ms
step:859/1530 train_loss:3.5562 train_time:143718ms step_avg:169.28ms
step:860/1530 train_loss:3.5757 train_time:143890ms step_avg:169.28ms
step:861/1530 train_loss:3.6196 train_time:144069ms step_avg:169.29ms
step:862/1530 train_loss:3.5951 train_time:144247ms step_avg:169.30ms
step:863/1530 train_loss:3.5687 train_time:144423ms step_avg:169.31ms
step:864/1530 train_loss:3.3689 train_time:144596ms step_avg:169.32ms
step:865/1530 train_loss:3.5907 train_time:144768ms step_avg:169.32ms
step:866/1530 train_loss:3.8843 train_time:144948ms step_avg:169.33ms
step:867/1530 train_loss:3.4435 train_time:145122ms step_avg:169.34ms
step:868/1530 train_loss:3.6359 train_time:145293ms step_avg:169.34ms
step:869/1530 train_loss:3.6097 train_time:145467ms step_avg:169.34ms
step:870/1530 train_loss:3.4405 train_time:145643ms step_avg:169.35ms
step:871/1530 train_loss:3.3795 train_time:145815ms step_avg:169.36ms
step:872/1530 train_loss:3.6452 train_time:145991ms step_avg:169.36ms
step:873/1530 train_loss:3.4497 train_time:146165ms step_avg:169.37ms
step:874/1530 train_loss:3.2166 train_time:146342ms step_avg:169.38ms
step:875/1530 train_loss:3.6272 train_time:146516ms step_avg:169.38ms
step:875/1530 val_loss:3.5110 train_time:146565ms step_avg:169.44ms
step:876/1530 train_loss:3.4277 train_time:146690ms step_avg:169.39ms
step:877/1530 train_loss:3.6117 train_time:146867ms step_avg:169.40ms
step:878/1530 train_loss:3.4587 train_time:147041ms step_avg:169.40ms
step:879/1530 train_loss:3.6467 train_time:147215ms step_avg:169.41ms
step:880/1530 train_loss:3.3052 train_time:147387ms step_avg:169.41ms
step:881/1530 train_loss:3.4685 train_time:147560ms step_avg:169.41ms
step:882/1530 train_loss:3.6843 train_time:147732ms step_avg:169.42ms
step:883/1530 train_loss:3.8238 train_time:147906ms step_avg:169.42ms
step:884/1530 train_loss:3.5561 train_time:148081ms step_avg:169.43ms
step:885/1530 train_loss:3.4868 train_time:148253ms step_avg:169.43ms
step:886/1530 train_loss:3.5596 train_time:148428ms step_avg:169.44ms
step:887/1530 train_loss:4.0920 train_time:148601ms step_avg:169.44ms
step:888/1530 train_loss:3.8309 train_time:148779ms step_avg:169.45ms
step:889/1530 train_loss:3.5170 train_time:148953ms step_avg:169.46ms
step:890/1530 train_loss:3.5259 train_time:149126ms step_avg:169.46ms
step:891/1530 train_loss:3.3506 train_time:149299ms step_avg:169.46ms
step:892/1530 train_loss:3.7120 train_time:149473ms step_avg:169.47ms
step:893/1530 train_loss:3.4215 train_time:149645ms step_avg:169.47ms
step:894/1530 train_loss:3.6364 train_time:149821ms step_avg:169.48ms
step:895/1530 train_loss:3.6676 train_time:149994ms step_avg:169.48ms
step:896/1530 train_loss:3.4925 train_time:150169ms step_avg:169.49ms
step:897/1530 train_loss:3.5388 train_time:150344ms step_avg:169.50ms
step:898/1530 train_loss:3.5821 train_time:150519ms step_avg:169.50ms
step:899/1530 train_loss:3.4673 train_time:150691ms step_avg:169.51ms
step:900/1530 train_loss:3.4137 train_time:150863ms step_avg:169.51ms
step:901/1530 train_loss:3.6123 train_time:151036ms step_avg:169.51ms
step:902/1530 train_loss:3.6267 train_time:151207ms step_avg:169.51ms
step:903/1530 train_loss:3.5362 train_time:151382ms step_avg:169.52ms
step:904/1530 train_loss:3.4871 train_time:151555ms step_avg:169.52ms
step:905/1530 train_loss:3.4944 train_time:151727ms step_avg:169.53ms
step:906/1530 train_loss:3.6977 train_time:151902ms step_avg:169.53ms
step:907/1530 train_loss:3.5077 train_time:152076ms step_avg:169.54ms
step:908/1530 train_loss:3.5621 train_time:152248ms step_avg:169.54ms
step:909/1530 train_loss:3.4489 train_time:152424ms step_avg:169.55ms
step:910/1530 train_loss:3.5247 train_time:152603ms step_avg:169.56ms
step:911/1530 train_loss:3.6369 train_time:152779ms step_avg:169.57ms
step:912/1530 train_loss:3.5910 train_time:152956ms step_avg:169.57ms
step:913/1530 train_loss:3.4535 train_time:153135ms step_avg:169.58ms
step:914/1530 train_loss:3.7356 train_time:153313ms step_avg:169.59ms
step:915/1530 train_loss:3.5233 train_time:153494ms step_avg:169.61ms
step:916/1530 train_loss:3.6132 train_time:153671ms step_avg:169.61ms
step:917/1530 train_loss:3.5920 train_time:153846ms step_avg:169.62ms
step:918/1530 train_loss:4.8024 train_time:154028ms step_avg:169.63ms
step:919/1530 train_loss:3.4909 train_time:154208ms step_avg:169.65ms
step:920/1530 train_loss:3.5799 train_time:154382ms step_avg:169.65ms
step:921/1530 train_loss:3.5440 train_time:154558ms step_avg:169.66ms
step:922/1530 train_loss:3.5729 train_time:154735ms step_avg:169.67ms
step:923/1530 train_loss:3.6023 train_time:154910ms step_avg:169.67ms
step:924/1530 train_loss:3.6703 train_time:155086ms step_avg:169.68ms
step:925/1530 train_loss:3.6370 train_time:155260ms step_avg:169.68ms
step:926/1530 train_loss:3.5448 train_time:155433ms step_avg:169.69ms
step:927/1530 train_loss:3.5469 train_time:155609ms step_avg:169.69ms
step:928/1530 train_loss:3.7722 train_time:155787ms step_avg:169.70ms
step:929/1530 train_loss:3.6037 train_time:155961ms step_avg:169.71ms
step:930/1530 train_loss:3.3968 train_time:156137ms step_avg:169.71ms
step:931/1530 train_loss:3.4906 train_time:156311ms step_avg:169.72ms
step:932/1530 train_loss:3.6403 train_time:156488ms step_avg:169.73ms
step:933/1530 train_loss:3.3564 train_time:156664ms step_avg:169.73ms
step:934/1530 train_loss:3.5746 train_time:156840ms step_avg:169.74ms
step:935/1530 train_loss:3.4310 train_time:157017ms step_avg:169.75ms
step:936/1530 train_loss:3.5134 train_time:157193ms step_avg:169.76ms
step:937/1530 train_loss:3.6177 train_time:157375ms step_avg:169.77ms
step:938/1530 train_loss:3.5407 train_time:157549ms step_avg:169.77ms
step:939/1530 train_loss:3.6641 train_time:157730ms step_avg:169.78ms
step:940/1530 train_loss:3.4691 train_time:157905ms step_avg:169.79ms
step:941/1530 train_loss:3.5390 train_time:158080ms step_avg:169.80ms
step:942/1530 train_loss:3.3516 train_time:158255ms step_avg:169.80ms
step:943/1530 train_loss:3.7036 train_time:158437ms step_avg:169.81ms
step:944/1530 train_loss:3.3924 train_time:158756ms step_avg:169.97ms
step:945/1530 train_loss:3.4174 train_time:158940ms step_avg:169.99ms
step:946/1530 train_loss:5.0633 train_time:159120ms step_avg:170.00ms
step:947/1530 train_loss:3.5938 train_time:159296ms step_avg:170.01ms
step:948/1530 train_loss:3.4781 train_time:159471ms step_avg:170.01ms
step:949/1530 train_loss:3.3661 train_time:159802ms step_avg:170.18ms
step:950/1530 train_loss:3.4387 train_time:159976ms step_avg:170.19ms
step:951/1530 train_loss:3.3979 train_time:160153ms step_avg:170.19ms
step:952/1530 train_loss:3.4703 train_time:160330ms step_avg:170.20ms
step:953/1530 train_loss:3.5601 train_time:160506ms step_avg:170.21ms
step:954/1530 train_loss:3.4420 train_time:160684ms step_avg:170.22ms
step:955/1530 train_loss:3.4697 train_time:160857ms step_avg:170.22ms
step:956/1530 train_loss:3.4345 train_time:161033ms step_avg:170.22ms
step:957/1530 train_loss:3.4850 train_time:161213ms step_avg:170.24ms
step:958/1530 train_loss:3.5005 train_time:161392ms step_avg:170.24ms
step:959/1530 train_loss:3.5083 train_time:161570ms step_avg:170.25ms
step:960/1530 train_loss:3.3991 train_time:161748ms step_avg:170.26ms
step:961/1530 train_loss:3.6352 train_time:161923ms step_avg:170.27ms
step:962/1530 train_loss:3.5833 train_time:162097ms step_avg:170.27ms
step:963/1530 train_loss:3.5719 train_time:162273ms step_avg:170.28ms
step:964/1530 train_loss:3.4192 train_time:162451ms step_avg:170.28ms
step:965/1530 train_loss:3.4669 train_time:162625ms step_avg:170.29ms
step:966/1530 train_loss:3.7019 train_time:162798ms step_avg:170.29ms
step:967/1530 train_loss:3.5097 train_time:162973ms step_avg:170.30ms
step:968/1530 train_loss:3.5082 train_time:163150ms step_avg:170.30ms
step:969/1530 train_loss:3.5763 train_time:163326ms step_avg:170.31ms
step:970/1530 train_loss:3.3654 train_time:163499ms step_avg:170.31ms
step:971/1530 train_loss:3.5246 train_time:163672ms step_avg:170.31ms
step:972/1530 train_loss:3.4707 train_time:163846ms step_avg:170.32ms
step:973/1530 train_loss:3.5290 train_time:164021ms step_avg:170.32ms
step:974/1530 train_loss:3.5786 train_time:164196ms step_avg:170.33ms
step:975/1530 train_loss:3.4532 train_time:164370ms step_avg:170.33ms
step:976/1530 train_loss:3.6587 train_time:164545ms step_avg:170.34ms
step:977/1530 train_loss:3.5601 train_time:164719ms step_avg:170.34ms
step:978/1530 train_loss:3.3550 train_time:164893ms step_avg:170.34ms
step:979/1530 train_loss:3.6164 train_time:165070ms step_avg:170.35ms
step:980/1530 train_loss:3.4095 train_time:165247ms step_avg:170.36ms
step:981/1530 train_loss:3.5631 train_time:165425ms step_avg:170.37ms
step:982/1530 train_loss:3.5341 train_time:165598ms step_avg:170.37ms
step:983/1530 train_loss:3.5004 train_time:165773ms step_avg:170.37ms
step:984/1530 train_loss:3.4923 train_time:165949ms step_avg:170.38ms
step:985/1530 train_loss:3.5682 train_time:166128ms step_avg:170.39ms
step:986/1530 train_loss:3.4086 train_time:166303ms step_avg:170.39ms
step:987/1530 train_loss:3.4793 train_time:166476ms step_avg:170.40ms
step:988/1530 train_loss:3.4749 train_time:166652ms step_avg:170.40ms
step:989/1530 train_loss:3.4086 train_time:166826ms step_avg:170.40ms
step:990/1530 train_loss:3.6520 train_time:167003ms step_avg:170.41ms
step:991/1530 train_loss:3.4685 train_time:167177ms step_avg:170.42ms
step:992/1530 train_loss:3.4404 train_time:167357ms step_avg:170.42ms
step:993/1530 train_loss:3.4905 train_time:167539ms step_avg:170.44ms
step:994/1530 train_loss:3.5907 train_time:167713ms step_avg:170.44ms
step:995/1530 train_loss:3.5253 train_time:167886ms step_avg:170.44ms
step:996/1530 train_loss:3.4517 train_time:168059ms step_avg:170.44ms
step:997/1530 train_loss:3.7471 train_time:168233ms step_avg:170.45ms
step:998/1530 train_loss:3.4352 train_time:168406ms step_avg:170.45ms
step:999/1530 train_loss:3.5812 train_time:168581ms step_avg:170.46ms
step:1000/1530 train_loss:3.4311 train_time:168757ms step_avg:170.46ms
step:1000/1530 val_loss:3.4585 train_time:168808ms step_avg:170.51ms
step:1001/1530 train_loss:3.4875 train_time:168934ms step_avg:170.47ms
step:1002/1530 train_loss:3.3692 train_time:169106ms step_avg:170.47ms
step:1003/1530 train_loss:3.5515 train_time:169282ms step_avg:170.48ms
step:1004/1530 train_loss:3.5907 train_time:169460ms step_avg:170.48ms
step:1005/1530 train_loss:3.3868 train_time:169635ms step_avg:170.49ms
step:1006/1530 train_loss:3.4526 train_time:169812ms step_avg:170.49ms
step:1007/1530 train_loss:3.4288 train_time:169984ms step_avg:170.50ms
step:1008/1530 train_loss:3.5519 train_time:170161ms step_avg:170.50ms
step:1009/1530 train_loss:3.6534 train_time:170340ms step_avg:170.51ms
step:1010/1530 train_loss:3.5576 train_time:170514ms step_avg:170.51ms
step:1011/1530 train_loss:3.5283 train_time:170687ms step_avg:170.52ms
step:1012/1530 train_loss:3.3817 train_time:170862ms step_avg:170.52ms
step:1013/1530 train_loss:3.5287 train_time:171038ms step_avg:170.53ms
step:1014/1530 train_loss:3.6114 train_time:171216ms step_avg:170.53ms
step:1015/1530 train_loss:3.3146 train_time:171393ms step_avg:170.54ms
step:1016/1530 train_loss:3.4025 train_time:171567ms step_avg:170.54ms
step:1017/1530 train_loss:3.3852 train_time:171744ms step_avg:170.55ms
step:1018/1530 train_loss:3.3846 train_time:171920ms step_avg:170.56ms
step:1019/1530 train_loss:3.5103 train_time:172096ms step_avg:170.56ms
step:1020/1530 train_loss:3.3666 train_time:172274ms step_avg:170.57ms
step:1021/1530 train_loss:3.3446 train_time:172448ms step_avg:170.57ms
step:1022/1530 train_loss:3.4675 train_time:172623ms step_avg:170.58ms
step:1023/1530 train_loss:3.4921 train_time:172797ms step_avg:170.58ms
step:1024/1530 train_loss:3.4681 train_time:172976ms step_avg:170.59ms
step:1025/1530 train_loss:3.4759 train_time:173156ms step_avg:170.60ms
step:1026/1530 train_loss:3.6105 train_time:173332ms step_avg:170.60ms
step:1027/1530 train_loss:3.3173 train_time:173507ms step_avg:170.61ms
step:1028/1530 train_loss:3.3895 train_time:173688ms step_avg:170.62ms
step:1029/1530 train_loss:3.3017 train_time:173869ms step_avg:170.63ms
step:1030/1530 train_loss:3.5332 train_time:174044ms step_avg:170.63ms
step:1031/1530 train_loss:3.4997 train_time:174219ms step_avg:170.64ms
step:1032/1530 train_loss:3.6842 train_time:174401ms step_avg:170.65ms
step:1033/1530 train_loss:3.4861 train_time:174576ms step_avg:170.65ms
step:1034/1530 train_loss:3.3871 train_time:174753ms step_avg:170.66ms
step:1035/1530 train_loss:3.4392 train_time:174931ms step_avg:170.66ms
step:1036/1530 train_loss:3.4727 train_time:175107ms step_avg:170.67ms
step:1037/1530 train_loss:3.7777 train_time:175285ms step_avg:170.68ms
step:1038/1530 train_loss:3.6095 train_time:175464ms step_avg:170.68ms
step:1039/1530 train_loss:3.5010 train_time:175645ms step_avg:170.70ms
step:1040/1530 train_loss:3.4065 train_time:175820ms step_avg:170.70ms
step:1041/1530 train_loss:3.4814 train_time:175998ms step_avg:170.71ms
step:1042/1530 train_loss:3.5155 train_time:176171ms step_avg:170.71ms
step:1043/1530 train_loss:3.4425 train_time:176345ms step_avg:170.71ms
step:1044/1530 train_loss:3.4498 train_time:176523ms step_avg:170.72ms
step:1045/1530 train_loss:3.5076 train_time:176702ms step_avg:170.73ms
step:1046/1530 train_loss:3.4151 train_time:176878ms step_avg:170.73ms
step:1047/1530 train_loss:3.6213 train_time:177056ms step_avg:170.74ms
step:1048/1530 train_loss:3.4899 train_time:177233ms step_avg:170.74ms
step:1049/1530 train_loss:3.3938 train_time:177409ms step_avg:170.75ms
step:1050/1530 train_loss:3.3837 train_time:177585ms step_avg:170.76ms
step:1051/1530 train_loss:3.4870 train_time:177762ms step_avg:170.76ms
step:1052/1530 train_loss:3.3502 train_time:177940ms step_avg:170.77ms
step:1053/1530 train_loss:3.6822 train_time:178118ms step_avg:170.77ms
step:1054/1530 train_loss:3.5310 train_time:178297ms step_avg:170.78ms
step:1055/1530 train_loss:3.3779 train_time:178473ms step_avg:170.79ms
step:1056/1530 train_loss:3.4926 train_time:178647ms step_avg:170.79ms
step:1057/1530 train_loss:3.5723 train_time:178824ms step_avg:170.80ms
step:1058/1530 train_loss:3.2938 train_time:179001ms step_avg:170.80ms
step:1059/1530 train_loss:3.3597 train_time:179183ms step_avg:170.81ms
step:1060/1530 train_loss:3.4279 train_time:179359ms step_avg:170.82ms
step:1061/1530 train_loss:3.4102 train_time:179534ms step_avg:170.82ms
step:1062/1530 train_loss:3.3758 train_time:179709ms step_avg:170.83ms
step:1063/1530 train_loss:3.4542 train_time:179883ms step_avg:170.83ms
step:1064/1530 train_loss:3.3753 train_time:180058ms step_avg:170.83ms
step:1065/1530 train_loss:3.3536 train_time:180237ms step_avg:170.84ms
step:1066/1530 train_loss:3.4056 train_time:180414ms step_avg:170.85ms
step:1067/1530 train_loss:3.2658 train_time:180592ms step_avg:170.85ms
step:1068/1530 train_loss:3.4283 train_time:180768ms step_avg:170.86ms
step:1069/1530 train_loss:3.2918 train_time:180949ms step_avg:170.87ms
step:1070/1530 train_loss:3.5630 train_time:181122ms step_avg:170.87ms
step:1071/1530 train_loss:3.5028 train_time:181301ms step_avg:170.88ms
step:1072/1530 train_loss:3.4311 train_time:181476ms step_avg:170.88ms
step:1073/1530 train_loss:3.5131 train_time:181650ms step_avg:170.88ms
step:1074/1530 train_loss:3.4226 train_time:181826ms step_avg:170.89ms
step:1075/1530 train_loss:3.3921 train_time:182003ms step_avg:170.90ms
step:1076/1530 train_loss:3.7909 train_time:182180ms step_avg:170.90ms
step:1077/1530 train_loss:3.4187 train_time:182357ms step_avg:170.91ms
step:1078/1530 train_loss:3.0964 train_time:182545ms step_avg:170.92ms
step:1079/1530 train_loss:3.5234 train_time:182720ms step_avg:170.93ms
step:1080/1530 train_loss:3.4199 train_time:182897ms step_avg:170.93ms
step:1081/1530 train_loss:3.4930 train_time:183071ms step_avg:170.93ms
step:1082/1530 train_loss:3.5819 train_time:183246ms step_avg:170.94ms
step:1083/1530 train_loss:3.4854 train_time:183421ms step_avg:170.94ms
step:1084/1530 train_loss:3.4542 train_time:183597ms step_avg:170.95ms
step:1085/1530 train_loss:3.4247 train_time:183772ms step_avg:170.95ms
step:1086/1530 train_loss:3.6193 train_time:183949ms step_avg:170.96ms
step:1087/1530 train_loss:3.4945 train_time:184122ms step_avg:170.96ms
step:1088/1530 train_loss:3.3613 train_time:184299ms step_avg:170.96ms
step:1089/1530 train_loss:3.3652 train_time:184479ms step_avg:170.97ms
step:1090/1530 train_loss:3.4717 train_time:184658ms step_avg:170.98ms
step:1091/1530 train_loss:3.2752 train_time:184836ms step_avg:170.99ms
step:1092/1530 train_loss:3.4775 train_time:185014ms step_avg:170.99ms
step:1093/1530 train_loss:3.5966 train_time:185191ms step_avg:171.00ms
step:1094/1530 train_loss:3.4383 train_time:185365ms step_avg:171.00ms
step:1095/1530 train_loss:3.4094 train_time:185540ms step_avg:171.00ms
step:1096/1530 train_loss:3.4157 train_time:185717ms step_avg:171.01ms
step:1097/1530 train_loss:3.4830 train_time:185895ms step_avg:171.02ms
step:1098/1530 train_loss:3.5551 train_time:186073ms step_avg:171.02ms
step:1099/1530 train_loss:3.5206 train_time:186249ms step_avg:171.03ms
step:1100/1530 train_loss:3.4163 train_time:186428ms step_avg:171.03ms
step:1101/1530 train_loss:3.2816 train_time:186605ms step_avg:171.04ms
step:1102/1530 train_loss:3.3003 train_time:186784ms step_avg:171.05ms
step:1103/1530 train_loss:3.4332 train_time:186965ms step_avg:171.06ms
step:1104/1530 train_loss:3.3161 train_time:187142ms step_avg:171.06ms
step:1105/1530 train_loss:4.0551 train_time:187320ms step_avg:171.07ms
step:1106/1530 train_loss:3.2208 train_time:187494ms step_avg:171.07ms
step:1107/1530 train_loss:3.5546 train_time:187670ms step_avg:171.08ms
step:1108/1530 train_loss:3.3349 train_time:187843ms step_avg:171.08ms
step:1109/1530 train_loss:3.4938 train_time:188018ms step_avg:171.08ms
step:1110/1530 train_loss:3.4160 train_time:188192ms step_avg:171.08ms
step:1111/1530 train_loss:3.4738 train_time:188365ms step_avg:171.09ms
step:1112/1530 train_loss:3.5538 train_time:188545ms step_avg:171.09ms
step:1113/1530 train_loss:3.4244 train_time:188730ms step_avg:171.11ms
step:1114/1530 train_loss:3.3651 train_time:188909ms step_avg:171.11ms
step:1115/1530 train_loss:3.2332 train_time:189087ms step_avg:171.12ms
step:1116/1530 train_loss:3.4153 train_time:189261ms step_avg:171.12ms
step:1117/1530 train_loss:3.5755 train_time:189441ms step_avg:171.13ms
step:1118/1530 train_loss:3.6129 train_time:189618ms step_avg:171.14ms
step:1119/1530 train_loss:3.4707 train_time:189792ms step_avg:171.14ms
step:1120/1530 train_loss:3.4826 train_time:189970ms step_avg:171.14ms
step:1121/1530 train_loss:3.3819 train_time:190145ms step_avg:171.15ms
step:1122/1530 train_loss:3.4473 train_time:190321ms step_avg:171.15ms
step:1123/1530 train_loss:3.5713 train_time:190497ms step_avg:171.16ms
step:1124/1530 train_loss:3.3295 train_time:190674ms step_avg:171.16ms
step:1125/1530 train_loss:3.2179 train_time:190852ms step_avg:171.17ms
step:1125/1530 val_loss:3.4010 train_time:190903ms step_avg:171.21ms
step:1126/1530 train_loss:3.4671 train_time:191029ms step_avg:171.17ms
step:1127/1530 train_loss:3.6622 train_time:191207ms step_avg:171.18ms
step:1128/1530 train_loss:3.2204 train_time:191386ms step_avg:171.19ms
step:1129/1530 train_loss:3.5494 train_time:191567ms step_avg:171.20ms
step:1130/1530 train_loss:3.3716 train_time:191747ms step_avg:171.20ms
step:1131/1530 train_loss:3.3925 train_time:191929ms step_avg:171.21ms
step:1132/1530 train_loss:3.3610 train_time:192103ms step_avg:171.21ms
step:1133/1530 train_loss:3.4790 train_time:192414ms step_avg:171.34ms
step:1134/1530 train_loss:3.4390 train_time:192599ms step_avg:171.35ms
step:1135/1530 train_loss:3.5168 train_time:192774ms step_avg:171.35ms
step:1136/1530 train_loss:3.5581 train_time:192953ms step_avg:171.36ms
step:1137/1530 train_loss:3.4506 train_time:193128ms step_avg:171.36ms
step:1138/1530 train_loss:3.3475 train_time:193308ms step_avg:171.37ms
step:1139/1530 train_loss:3.6500 train_time:193639ms step_avg:171.51ms
step:1140/1530 train_loss:3.4492 train_time:193814ms step_avg:171.52ms
step:1141/1530 train_loss:3.5899 train_time:193994ms step_avg:171.52ms
step:1142/1530 train_loss:3.4375 train_time:194170ms step_avg:171.53ms
step:1143/1530 train_loss:3.3562 train_time:194350ms step_avg:171.54ms
step:1144/1530 train_loss:3.4361 train_time:194526ms step_avg:171.54ms
step:1145/1530 train_loss:3.5834 train_time:194700ms step_avg:171.54ms
step:1146/1530 train_loss:3.5452 train_time:194881ms step_avg:171.55ms
step:1147/1530 train_loss:3.4775 train_time:195060ms step_avg:171.56ms
step:1148/1530 train_loss:3.4928 train_time:195238ms step_avg:171.56ms
step:1149/1530 train_loss:3.3182 train_time:195416ms step_avg:171.57ms
step:1150/1530 train_loss:3.3672 train_time:195592ms step_avg:171.57ms
step:1151/1530 train_loss:3.3128 train_time:195770ms step_avg:171.58ms
step:1152/1530 train_loss:3.3864 train_time:195950ms step_avg:171.59ms
step:1153/1530 train_loss:3.4232 train_time:196128ms step_avg:171.59ms
step:1154/1530 train_loss:3.5139 train_time:196304ms step_avg:171.59ms
step:1155/1530 train_loss:3.3110 train_time:196487ms step_avg:171.60ms
step:1156/1530 train_loss:3.5263 train_time:196670ms step_avg:171.61ms
step:1157/1530 train_loss:3.4912 train_time:196849ms step_avg:171.62ms
step:1158/1530 train_loss:3.2399 train_time:197025ms step_avg:171.62ms
step:1159/1530 train_loss:3.3390 train_time:197202ms step_avg:171.63ms
step:1160/1530 train_loss:3.3323 train_time:197377ms step_avg:171.63ms
step:1161/1530 train_loss:3.0813 train_time:197557ms step_avg:171.64ms
step:1162/1530 train_loss:3.4135 train_time:197735ms step_avg:171.65ms
step:1163/1530 train_loss:3.3836 train_time:197914ms step_avg:171.65ms
step:1164/1530 train_loss:3.2839 train_time:198092ms step_avg:171.66ms
step:1165/1530 train_loss:3.2367 train_time:198268ms step_avg:171.66ms
step:1166/1530 train_loss:3.3782 train_time:198447ms step_avg:171.67ms
step:1167/1530 train_loss:3.4055 train_time:198623ms step_avg:171.67ms
step:1168/1530 train_loss:3.7153 train_time:198798ms step_avg:171.67ms
step:1169/1530 train_loss:3.3696 train_time:198976ms step_avg:171.68ms
step:1170/1530 train_loss:3.3781 train_time:199154ms step_avg:171.68ms
step:1171/1530 train_loss:3.2716 train_time:199329ms step_avg:171.69ms
step:1172/1530 train_loss:3.4172 train_time:199504ms step_avg:171.69ms
step:1173/1530 train_loss:3.5323 train_time:199685ms step_avg:171.70ms
step:1174/1530 train_loss:3.3734 train_time:199870ms step_avg:171.71ms
step:1175/1530 train_loss:3.3519 train_time:200051ms step_avg:171.72ms
step:1176/1530 train_loss:3.4170 train_time:200231ms step_avg:171.72ms
step:1177/1530 train_loss:3.4471 train_time:200414ms step_avg:171.73ms
step:1178/1530 train_loss:3.4891 train_time:200590ms step_avg:171.74ms
step:1179/1530 train_loss:3.3910 train_time:200767ms step_avg:171.74ms
step:1180/1530 train_loss:3.3414 train_time:200956ms step_avg:171.76ms
step:1181/1530 train_loss:3.3314 train_time:201134ms step_avg:171.76ms
step:1182/1530 train_loss:3.3642 train_time:201310ms step_avg:171.77ms
step:1183/1530 train_loss:3.3260 train_time:201490ms step_avg:171.77ms
step:1184/1530 train_loss:3.5004 train_time:201667ms step_avg:171.78ms
step:1185/1530 train_loss:3.5329 train_time:201848ms step_avg:171.79ms
step:1186/1530 train_loss:3.3575 train_time:202028ms step_avg:171.79ms
step:1187/1530 train_loss:3.4096 train_time:202214ms step_avg:171.80ms
step:1188/1530 train_loss:3.4334 train_time:202390ms step_avg:171.81ms
step:1189/1530 train_loss:3.2698 train_time:202570ms step_avg:171.82ms
step:1190/1530 train_loss:3.4393 train_time:202749ms step_avg:171.82ms
step:1191/1530 train_loss:3.5723 train_time:202929ms step_avg:171.83ms
step:1192/1530 train_loss:3.3838 train_time:203104ms step_avg:171.83ms
step:1193/1530 train_loss:3.2674 train_time:203281ms step_avg:171.83ms
step:1194/1530 train_loss:3.5519 train_time:203459ms step_avg:171.84ms
step:1195/1530 train_loss:3.3595 train_time:203639ms step_avg:171.85ms
step:1196/1530 train_loss:3.3762 train_time:203825ms step_avg:171.86ms
step:1197/1530 train_loss:3.2903 train_time:204007ms step_avg:171.87ms
step:1198/1530 train_loss:3.2955 train_time:204192ms step_avg:171.88ms
step:1199/1530 train_loss:3.3365 train_time:204373ms step_avg:171.89ms
step:1200/1530 train_loss:3.4414 train_time:204550ms step_avg:171.89ms
step:1201/1530 train_loss:3.4765 train_time:204727ms step_avg:171.90ms
step:1202/1530 train_loss:3.6651 train_time:204915ms step_avg:171.91ms
step:1203/1530 train_loss:3.3990 train_time:205095ms step_avg:171.92ms
step:1204/1530 train_loss:3.3023 train_time:205275ms step_avg:171.92ms
step:1205/1530 train_loss:3.4292 train_time:205451ms step_avg:171.93ms
step:1206/1530 train_loss:3.4656 train_time:205628ms step_avg:171.93ms
step:1207/1530 train_loss:3.5073 train_time:205806ms step_avg:171.94ms
step:1208/1530 train_loss:3.3880 train_time:205982ms step_avg:171.94ms
step:1209/1530 train_loss:3.2391 train_time:206163ms step_avg:171.95ms
step:1210/1530 train_loss:3.2972 train_time:206343ms step_avg:171.95ms
step:1211/1530 train_loss:3.3922 train_time:206521ms step_avg:171.96ms
step:1212/1530 train_loss:3.3865 train_time:206697ms step_avg:171.96ms
step:1213/1530 train_loss:3.4098 train_time:206880ms step_avg:171.97ms
step:1214/1530 train_loss:3.2414 train_time:207061ms step_avg:171.98ms
step:1215/1530 train_loss:3.3920 train_time:207238ms step_avg:171.98ms
step:1216/1530 train_loss:3.3252 train_time:207415ms step_avg:171.99ms
step:1217/1530 train_loss:3.3181 train_time:207593ms step_avg:171.99ms
step:1218/1530 train_loss:3.4039 train_time:207770ms step_avg:172.00ms
step:1219/1530 train_loss:3.2511 train_time:207955ms step_avg:172.01ms
step:1220/1530 train_loss:3.4650 train_time:208130ms step_avg:172.01ms
step:1221/1530 train_loss:3.4994 train_time:208305ms step_avg:172.01ms
step:1222/1530 train_loss:3.4255 train_time:208481ms step_avg:172.01ms
step:1223/1530 train_loss:3.2849 train_time:208660ms step_avg:172.02ms
step:1224/1530 train_loss:3.2446 train_time:208843ms step_avg:172.03ms
step:1225/1530 train_loss:3.3629 train_time:209021ms step_avg:172.03ms
step:1226/1530 train_loss:3.3242 train_time:209200ms step_avg:172.04ms
step:1227/1530 train_loss:3.2694 train_time:209381ms step_avg:172.05ms
step:1228/1530 train_loss:3.4368 train_time:209557ms step_avg:172.05ms
step:1229/1530 train_loss:3.3671 train_time:209736ms step_avg:172.06ms
step:1230/1530 train_loss:3.3916 train_time:209920ms step_avg:172.07ms
step:1231/1530 train_loss:3.5697 train_time:210100ms step_avg:172.07ms
step:1232/1530 train_loss:3.4880 train_time:210281ms step_avg:172.08ms
step:1233/1530 train_loss:3.4180 train_time:210458ms step_avg:172.08ms
step:1234/1530 train_loss:3.5779 train_time:210634ms step_avg:172.09ms
step:1235/1530 train_loss:3.3206 train_time:210813ms step_avg:172.09ms
step:1236/1530 train_loss:3.2817 train_time:210991ms step_avg:172.10ms
step:1237/1530 train_loss:3.2682 train_time:211168ms step_avg:172.10ms
step:1238/1530 train_loss:3.2711 train_time:211351ms step_avg:172.11ms
step:1239/1530 train_loss:3.3255 train_time:211528ms step_avg:172.11ms
step:1240/1530 train_loss:3.3768 train_time:211706ms step_avg:172.12ms
step:1241/1530 train_loss:3.4185 train_time:211885ms step_avg:172.12ms
step:1242/1530 train_loss:3.2949 train_time:212063ms step_avg:172.13ms
step:1243/1530 train_loss:3.3964 train_time:212241ms step_avg:172.13ms
step:1244/1530 train_loss:3.3982 train_time:212415ms step_avg:172.14ms
step:1245/1530 train_loss:3.4058 train_time:212591ms step_avg:172.14ms
step:1246/1530 train_loss:3.2392 train_time:212770ms step_avg:172.14ms
step:1247/1530 train_loss:3.3702 train_time:212946ms step_avg:172.15ms
step:1248/1530 train_loss:3.4227 train_time:213123ms step_avg:172.15ms
step:1249/1530 train_loss:3.4210 train_time:213301ms step_avg:172.16ms
step:1250/1530 train_loss:3.2951 train_time:213479ms step_avg:172.16ms
step:1250/1530 val_loss:3.3480 train_time:213532ms step_avg:172.20ms
step:1251/1530 train_loss:3.4842 train_time:213663ms step_avg:172.17ms
step:1252/1530 train_loss:3.3539 train_time:213839ms step_avg:172.17ms
step:1253/1530 train_loss:3.3023 train_time:214016ms step_avg:172.18ms
step:1254/1530 train_loss:3.4102 train_time:214198ms step_avg:172.18ms
step:1255/1530 train_loss:3.5093 train_time:214388ms step_avg:172.20ms
step:1256/1530 train_loss:3.2986 train_time:214568ms step_avg:172.21ms
step:1257/1530 train_loss:3.3682 train_time:214747ms step_avg:172.21ms
step:1258/1530 train_loss:3.3576 train_time:214930ms step_avg:172.22ms
step:1259/1530 train_loss:3.3197 train_time:215109ms step_avg:172.22ms
step:1260/1530 train_loss:3.2024 train_time:215286ms step_avg:172.23ms
step:1261/1530 train_loss:3.3018 train_time:215466ms step_avg:172.23ms
step:1262/1530 train_loss:3.3195 train_time:215650ms step_avg:172.24ms
step:1263/1530 train_loss:3.2311 train_time:215832ms step_avg:172.25ms
step:1264/1530 train_loss:3.4370 train_time:216006ms step_avg:172.25ms
step:1265/1530 train_loss:3.4226 train_time:216182ms step_avg:172.26ms
step:1266/1530 train_loss:3.4392 train_time:216361ms step_avg:172.26ms
step:1267/1530 train_loss:3.3657 train_time:216540ms step_avg:172.27ms
step:1268/1530 train_loss:3.4002 train_time:216720ms step_avg:172.27ms
step:1269/1530 train_loss:3.2484 train_time:216904ms step_avg:172.28ms
step:1270/1530 train_loss:3.0986 train_time:217081ms step_avg:172.29ms
step:1271/1530 train_loss:3.3944 train_time:217259ms step_avg:172.29ms
step:1272/1530 train_loss:3.3457 train_time:217435ms step_avg:172.29ms
step:1273/1530 train_loss:3.3711 train_time:217617ms step_avg:172.30ms
step:1274/1530 train_loss:3.3615 train_time:217796ms step_avg:172.31ms
step:1275/1530 train_loss:3.4261 train_time:217973ms step_avg:172.31ms
step:1276/1530 train_loss:3.4621 train_time:218148ms step_avg:172.31ms
step:1277/1530 train_loss:3.4050 train_time:218326ms step_avg:172.32ms
step:1278/1530 train_loss:3.4015 train_time:218502ms step_avg:172.32ms
step:1279/1530 train_loss:3.2589 train_time:218685ms step_avg:172.33ms
step:1280/1530 train_loss:3.3584 train_time:218869ms step_avg:172.34ms
step:1281/1530 train_loss:3.4159 train_time:219046ms step_avg:172.34ms
step:1282/1530 train_loss:3.4617 train_time:219221ms step_avg:172.34ms
step:1283/1530 train_loss:3.3264 train_time:219401ms step_avg:172.35ms
step:1284/1530 train_loss:3.3599 train_time:219581ms step_avg:172.36ms
step:1285/1530 train_loss:3.3542 train_time:219762ms step_avg:172.36ms
step:1286/1530 train_loss:3.3289 train_time:219938ms step_avg:172.37ms
step:1287/1530 train_loss:3.4814 train_time:220115ms step_avg:172.37ms
step:1288/1530 train_loss:3.2923 train_time:220295ms step_avg:172.37ms
step:1289/1530 train_loss:3.3722 train_time:220480ms step_avg:172.38ms
step:1290/1530 train_loss:3.4562 train_time:220665ms step_avg:172.39ms
step:1291/1530 train_loss:3.3748 train_time:220846ms step_avg:172.40ms
step:1292/1530 train_loss:3.4739 train_time:221027ms step_avg:172.41ms
step:1293/1530 train_loss:3.5123 train_time:221208ms step_avg:172.41ms
step:1294/1530 train_loss:3.4513 train_time:221388ms step_avg:172.42ms
step:1295/1530 train_loss:3.2804 train_time:221567ms step_avg:172.43ms
step:1296/1530 train_loss:3.3677 train_time:221748ms step_avg:172.43ms
step:1297/1530 train_loss:3.2683 train_time:221927ms step_avg:172.44ms
step:1298/1530 train_loss:3.2626 train_time:222107ms step_avg:172.44ms
step:1299/1530 train_loss:3.3902 train_time:222286ms step_avg:172.45ms
step:1300/1530 train_loss:3.3975 train_time:222462ms step_avg:172.45ms
step:1301/1530 train_loss:3.3949 train_time:222640ms step_avg:172.46ms
step:1302/1530 train_loss:3.5699 train_time:222822ms step_avg:172.46ms
step:1303/1530 train_loss:3.2961 train_time:223005ms step_avg:172.47ms
step:1304/1530 train_loss:3.5075 train_time:223186ms step_avg:172.48ms
step:1305/1530 train_loss:3.2530 train_time:223362ms step_avg:172.48ms
step:1306/1530 train_loss:3.4473 train_time:223544ms step_avg:172.49ms
step:1307/1530 train_loss:3.4505 train_time:223719ms step_avg:172.49ms
step:1308/1530 train_loss:3.2809 train_time:223897ms step_avg:172.49ms
step:1309/1530 train_loss:3.3049 train_time:224078ms step_avg:172.50ms
step:1310/1530 train_loss:3.2822 train_time:224256ms step_avg:172.50ms
step:1311/1530 train_loss:3.2964 train_time:224434ms step_avg:172.51ms
step:1312/1530 train_loss:3.3716 train_time:224615ms step_avg:172.52ms
step:1313/1530 train_loss:3.3339 train_time:224791ms step_avg:172.52ms
step:1314/1530 train_loss:3.0407 train_time:224976ms step_avg:172.53ms
step:1315/1530 train_loss:3.2694 train_time:225155ms step_avg:172.53ms
step:1316/1530 train_loss:3.3922 train_time:225330ms step_avg:172.53ms
step:1317/1530 train_loss:3.4131 train_time:225507ms step_avg:172.54ms
step:1318/1530 train_loss:3.2954 train_time:225693ms step_avg:172.55ms
step:1319/1530 train_loss:3.4190 train_time:225873ms step_avg:172.55ms
step:1320/1530 train_loss:3.4580 train_time:226056ms step_avg:172.56ms
step:1321/1530 train_loss:3.3593 train_time:226236ms step_avg:172.57ms
step:1322/1530 train_loss:3.3193 train_time:226550ms step_avg:172.67ms
step:1323/1530 train_loss:3.3178 train_time:226738ms step_avg:172.69ms
step:1324/1530 train_loss:3.4306 train_time:226918ms step_avg:172.69ms
step:1325/1530 train_loss:3.4838 train_time:227102ms step_avg:172.70ms
step:1326/1530 train_loss:3.2062 train_time:227282ms step_avg:172.71ms
step:1327/1530 train_loss:3.1592 train_time:227459ms step_avg:172.71ms
step:1328/1530 train_loss:3.4868 train_time:227640ms step_avg:172.72ms
step:1329/1530 train_loss:3.2895 train_time:227988ms step_avg:172.85ms
step:1330/1530 train_loss:3.4253 train_time:228168ms step_avg:172.85ms
step:1331/1530 train_loss:3.3244 train_time:228345ms step_avg:172.86ms
step:1332/1530 train_loss:3.7332 train_time:228526ms step_avg:172.86ms
step:1333/1530 train_loss:3.4751 train_time:228705ms step_avg:172.87ms
step:1334/1530 train_loss:3.3633 train_time:228884ms step_avg:172.87ms
step:1335/1530 train_loss:3.2815 train_time:229063ms step_avg:172.88ms
step:1336/1530 train_loss:3.2918 train_time:229247ms step_avg:172.89ms
step:1337/1530 train_loss:3.5450 train_time:229425ms step_avg:172.89ms
step:1338/1530 train_loss:3.5206 train_time:229603ms step_avg:172.89ms
step:1339/1530 train_loss:3.3366 train_time:229782ms step_avg:172.90ms
step:1340/1530 train_loss:3.2797 train_time:229961ms step_avg:172.90ms
step:1341/1530 train_loss:3.5882 train_time:230138ms step_avg:172.91ms
step:1342/1530 train_loss:3.3522 train_time:230319ms step_avg:172.91ms
step:1343/1530 train_loss:3.3577 train_time:230498ms step_avg:172.92ms
step:1344/1530 train_loss:3.4089 train_time:230680ms step_avg:172.92ms
step:1345/1530 train_loss:3.3797 train_time:230862ms step_avg:172.93ms
step:1346/1530 train_loss:3.2931 train_time:231041ms step_avg:172.93ms
step:1347/1530 train_loss:3.2712 train_time:231218ms step_avg:172.94ms
step:1348/1530 train_loss:3.3443 train_time:231394ms step_avg:172.94ms
step:1349/1530 train_loss:3.2683 train_time:231570ms step_avg:172.94ms
step:1350/1530 train_loss:3.3871 train_time:231752ms step_avg:172.95ms
step:1351/1530 train_loss:3.2390 train_time:231928ms step_avg:172.95ms
step:1352/1530 train_loss:3.3038 train_time:232105ms step_avg:172.95ms
step:1353/1530 train_loss:3.3924 train_time:232285ms step_avg:172.96ms
step:1354/1530 train_loss:3.2528 train_time:232462ms step_avg:172.96ms
step:1355/1530 train_loss:3.1830 train_time:232642ms step_avg:172.97ms
step:1356/1530 train_loss:3.5062 train_time:232823ms step_avg:172.97ms
step:1357/1530 train_loss:3.4149 train_time:233003ms step_avg:172.98ms
step:1358/1530 train_loss:3.1844 train_time:233181ms step_avg:172.98ms
step:1359/1530 train_loss:3.4387 train_time:233361ms step_avg:172.99ms
step:1360/1530 train_loss:3.3459 train_time:233541ms step_avg:172.99ms
step:1361/1530 train_loss:3.1192 train_time:233727ms step_avg:173.00ms
step:1362/1530 train_loss:3.3863 train_time:233908ms step_avg:173.01ms
step:1363/1530 train_loss:3.2761 train_time:234095ms step_avg:173.02ms
step:1364/1530 train_loss:3.2995 train_time:234274ms step_avg:173.02ms
step:1365/1530 train_loss:3.3091 train_time:234452ms step_avg:173.03ms
step:1366/1530 train_loss:3.4184 train_time:234632ms step_avg:173.03ms
step:1367/1530 train_loss:3.3935 train_time:234810ms step_avg:173.04ms
step:1368/1530 train_loss:3.3417 train_time:234990ms step_avg:173.04ms
step:1369/1530 train_loss:3.2720 train_time:235178ms step_avg:173.05ms
step:1370/1530 train_loss:3.6021 train_time:235359ms step_avg:173.06ms
step:1371/1530 train_loss:3.3088 train_time:235541ms step_avg:173.06ms
step:1372/1530 train_loss:3.3649 train_time:235726ms step_avg:173.07ms
step:1373/1530 train_loss:3.3617 train_time:235904ms step_avg:173.08ms
step:1374/1530 train_loss:3.1422 train_time:236084ms step_avg:173.08ms
step:1375/1530 train_loss:3.5295 train_time:236264ms step_avg:173.09ms
step:1375/1530 val_loss:3.3057 train_time:236314ms step_avg:173.12ms
step:1376/1530 train_loss:3.3427 train_time:236443ms step_avg:173.09ms
step:1377/1530 train_loss:3.4748 train_time:236622ms step_avg:173.10ms
step:1378/1530 train_loss:3.4626 train_time:236801ms step_avg:173.10ms
step:1379/1530 train_loss:3.1225 train_time:236983ms step_avg:173.11ms
step:1380/1530 train_loss:3.3052 train_time:237162ms step_avg:173.11ms
step:1381/1530 train_loss:3.6848 train_time:237347ms step_avg:173.12ms
step:1382/1530 train_loss:3.2054 train_time:237526ms step_avg:173.12ms
step:1383/1530 train_loss:3.3883 train_time:237708ms step_avg:173.13ms
step:1384/1530 train_loss:3.4683 train_time:237891ms step_avg:173.14ms
step:1385/1530 train_loss:3.4032 train_time:238066ms step_avg:173.14ms
step:1386/1530 train_loss:3.3339 train_time:238245ms step_avg:173.14ms
step:1387/1530 train_loss:3.1991 train_time:238426ms step_avg:173.15ms
step:1388/1530 train_loss:3.3441 train_time:238604ms step_avg:173.15ms
step:1389/1530 train_loss:3.3127 train_time:238786ms step_avg:173.16ms
step:1390/1530 train_loss:3.5639 train_time:238963ms step_avg:173.16ms
step:1391/1530 train_loss:3.2886 train_time:239144ms step_avg:173.17ms
step:1392/1530 train_loss:3.2830 train_time:239322ms step_avg:173.17ms
step:1393/1530 train_loss:3.2300 train_time:239501ms step_avg:173.18ms
step:1394/1530 train_loss:3.4941 train_time:239678ms step_avg:173.18ms
step:1395/1530 train_loss:3.3832 train_time:239858ms step_avg:173.18ms
step:1396/1530 train_loss:3.3960 train_time:240037ms step_avg:173.19ms
step:1397/1530 train_loss:3.3059 train_time:240213ms step_avg:173.19ms
step:1398/1530 train_loss:3.2465 train_time:240388ms step_avg:173.19ms
step:1399/1530 train_loss:3.3139 train_time:240566ms step_avg:173.19ms
step:1400/1530 train_loss:3.3166 train_time:240748ms step_avg:173.20ms
step:1401/1530 train_loss:3.3430 train_time:240926ms step_avg:173.20ms
step:1402/1530 train_loss:3.2918 train_time:241104ms step_avg:173.21ms
step:1403/1530 train_loss:3.4911 train_time:241289ms step_avg:173.22ms
step:1404/1530 train_loss:3.2736 train_time:241466ms step_avg:173.22ms
step:1405/1530 train_loss:3.3101 train_time:241648ms step_avg:173.22ms
step:1406/1530 train_loss:3.3070 train_time:241830ms step_avg:173.23ms
step:1407/1530 train_loss:3.1681 train_time:242006ms step_avg:173.23ms
step:1408/1530 train_loss:3.3072 train_time:242186ms step_avg:173.24ms
step:1409/1530 train_loss:3.2979 train_time:242373ms step_avg:173.25ms
step:1410/1530 train_loss:3.2826 train_time:242550ms step_avg:173.25ms
step:1411/1530 train_loss:3.3604 train_time:242726ms step_avg:173.25ms
step:1412/1530 train_loss:3.3305 train_time:242904ms step_avg:173.26ms
step:1413/1530 train_loss:3.3546 train_time:243082ms step_avg:173.26ms
step:1414/1530 train_loss:3.3237 train_time:243263ms step_avg:173.26ms
step:1415/1530 train_loss:3.4054 train_time:243449ms step_avg:173.27ms
step:1416/1530 train_loss:3.2255 train_time:243638ms step_avg:173.28ms
step:1417/1530 train_loss:3.2772 train_time:243822ms step_avg:173.29ms
step:1418/1530 train_loss:3.3824 train_time:244002ms step_avg:173.30ms
step:1419/1530 train_loss:3.3317 train_time:244184ms step_avg:173.30ms
step:1420/1530 train_loss:3.3637 train_time:244367ms step_avg:173.31ms
step:1421/1530 train_loss:3.3660 train_time:244546ms step_avg:173.31ms
step:1422/1530 train_loss:3.3322 train_time:244723ms step_avg:173.32ms
step:1423/1530 train_loss:3.3140 train_time:244903ms step_avg:173.32ms
step:1424/1530 train_loss:3.3297 train_time:245089ms step_avg:173.33ms
step:1425/1530 train_loss:3.1836 train_time:245276ms step_avg:173.34ms
step:1426/1530 train_loss:3.3218 train_time:245454ms step_avg:173.34ms
step:1427/1530 train_loss:3.2819 train_time:245637ms step_avg:173.35ms
step:1428/1530 train_loss:3.3752 train_time:245813ms step_avg:173.35ms
step:1429/1530 train_loss:3.3505 train_time:245989ms step_avg:173.35ms
step:1430/1530 train_loss:3.2587 train_time:246170ms step_avg:173.36ms
step:1431/1530 train_loss:3.3138 train_time:246351ms step_avg:173.36ms
step:1432/1530 train_loss:3.3301 train_time:246533ms step_avg:173.37ms
step:1433/1530 train_loss:3.1344 train_time:246715ms step_avg:173.38ms
step:1434/1530 train_loss:3.2802 train_time:246900ms step_avg:173.38ms
step:1435/1530 train_loss:3.1171 train_time:247079ms step_avg:173.39ms
step:1436/1530 train_loss:3.2254 train_time:247258ms step_avg:173.39ms
step:1437/1530 train_loss:3.4047 train_time:247436ms step_avg:173.40ms
step:1438/1530 train_loss:3.3807 train_time:247613ms step_avg:173.40ms
step:1439/1530 train_loss:3.3105 train_time:247794ms step_avg:173.40ms
step:1440/1530 train_loss:3.1891 train_time:247971ms step_avg:173.41ms
step:1441/1530 train_loss:3.3325 train_time:248149ms step_avg:173.41ms
step:1442/1530 train_loss:3.3791 train_time:248333ms step_avg:173.42ms
step:1443/1530 train_loss:3.4858 train_time:248520ms step_avg:173.43ms
step:1444/1530 train_loss:3.4444 train_time:248696ms step_avg:173.43ms
step:1445/1530 train_loss:3.3348 train_time:248873ms step_avg:173.43ms
step:1446/1530 train_loss:3.1949 train_time:249053ms step_avg:173.44ms
step:1447/1530 train_loss:3.2925 train_time:249234ms step_avg:173.44ms
step:1448/1530 train_loss:3.2912 train_time:249412ms step_avg:173.44ms
step:1449/1530 train_loss:3.3864 train_time:249590ms step_avg:173.45ms
step:1450/1530 train_loss:3.3815 train_time:249771ms step_avg:173.45ms
step:1451/1530 train_loss:3.1989 train_time:249948ms step_avg:173.45ms
step:1452/1530 train_loss:3.3193 train_time:250128ms step_avg:173.46ms
step:1453/1530 train_loss:3.2540 train_time:250303ms step_avg:173.46ms
step:1454/1530 train_loss:3.2837 train_time:250482ms step_avg:173.46ms
step:1455/1530 train_loss:3.3212 train_time:250665ms step_avg:173.47ms
step:1456/1530 train_loss:3.2813 train_time:250843ms step_avg:173.47ms
step:1457/1530 train_loss:3.1541 train_time:251021ms step_avg:173.48ms
step:1458/1530 train_loss:3.4232 train_time:251201ms step_avg:173.48ms
step:1459/1530 train_loss:3.2662 train_time:251383ms step_avg:173.49ms
step:1460/1530 train_loss:3.3111 train_time:251564ms step_avg:173.49ms
step:1461/1530 train_loss:3.4276 train_time:251744ms step_avg:173.50ms
step:1462/1530 train_loss:3.2566 train_time:251921ms step_avg:173.50ms
step:1463/1530 train_loss:3.4637 train_time:252105ms step_avg:173.51ms
step:1464/1530 train_loss:3.3581 train_time:252285ms step_avg:173.51ms
step:1465/1530 train_loss:3.3569 train_time:252466ms step_avg:173.52ms
step:1466/1530 train_loss:3.2828 train_time:252643ms step_avg:173.52ms
step:1467/1530 train_loss:3.3875 train_time:252823ms step_avg:173.52ms
step:1468/1530 train_loss:3.2817 train_time:253000ms step_avg:173.53ms
step:1469/1530 train_loss:3.2695 train_time:253180ms step_avg:173.53ms
step:1470/1530 train_loss:3.3263 train_time:253362ms step_avg:173.54ms
step:1471/1530 train_loss:3.2530 train_time:253548ms step_avg:173.54ms
step:1472/1530 train_loss:3.2380 train_time:253733ms step_avg:173.55ms
step:1473/1530 train_loss:3.4357 train_time:253911ms step_avg:173.55ms
step:1474/1530 train_loss:3.3067 train_time:254094ms step_avg:173.56ms
step:1475/1530 train_loss:3.1468 train_time:254279ms step_avg:173.57ms
step:1476/1530 train_loss:3.2647 train_time:254458ms step_avg:173.57ms
step:1477/1530 train_loss:3.2362 train_time:254645ms step_avg:173.58ms
step:1478/1530 train_loss:3.3052 train_time:254830ms step_avg:173.59ms
step:1479/1530 train_loss:3.3929 train_time:255012ms step_avg:173.60ms
step:1480/1530 train_loss:3.2661 train_time:255190ms step_avg:173.60ms
step:1481/1530 train_loss:3.4460 train_time:255371ms step_avg:173.60ms
step:1482/1530 train_loss:3.3595 train_time:255559ms step_avg:173.61ms
step:1483/1530 train_loss:3.2762 train_time:255748ms step_avg:173.62ms
step:1484/1530 train_loss:3.2612 train_time:255937ms step_avg:173.63ms
step:1485/1530 train_loss:3.2756 train_time:256117ms step_avg:173.64ms
step:1486/1530 train_loss:3.2203 train_time:256301ms step_avg:173.65ms
step:1487/1530 train_loss:3.3348 train_time:256482ms step_avg:173.65ms
step:1488/1530 train_loss:3.2399 train_time:256666ms step_avg:173.66ms
step:1489/1530 train_loss:3.3114 train_time:256846ms step_avg:173.66ms
step:1490/1530 train_loss:3.2484 train_time:257027ms step_avg:173.67ms
step:1491/1530 train_loss:3.1546 train_time:257206ms step_avg:173.67ms
step:1492/1530 train_loss:3.2629 train_time:257387ms step_avg:173.68ms
step:1493/1530 train_loss:3.4307 train_time:257566ms step_avg:173.68ms
step:1494/1530 train_loss:3.2936 train_time:257745ms step_avg:173.68ms
step:1495/1530 train_loss:3.0276 train_time:257930ms step_avg:173.69ms
step:1496/1530 train_loss:3.3591 train_time:258112ms step_avg:173.70ms
step:1497/1530 train_loss:3.3086 train_time:258297ms step_avg:173.70ms
step:1498/1530 train_loss:3.3451 train_time:258481ms step_avg:173.71ms
step:1499/1530 train_loss:3.3088 train_time:258669ms step_avg:173.72ms
step:1500/1530 train_loss:3.2925 train_time:258864ms step_avg:173.73ms
step:1500/1530 val_loss:3.2748 train_time:258920ms step_avg:173.77ms
step:1501/1530 train_loss:3.0847 train_time:259056ms step_avg:173.75ms
step:1502/1530 train_loss:3.3539 train_time:259246ms step_avg:173.76ms
step:1503/1530 train_loss:3.2389 train_time:259426ms step_avg:173.76ms
step:1504/1530 train_loss:3.2425 train_time:259607ms step_avg:173.77ms
step:1505/1530 train_loss:3.2118 train_time:259786ms step_avg:173.77ms
step:1506/1530 train_loss:3.2735 train_time:259967ms step_avg:173.77ms
step:1507/1530 train_loss:3.1732 train_time:260162ms step_avg:173.79ms
step:1508/1530 train_loss:3.4787 train_time:260344ms step_avg:173.79ms
step:1509/1530 train_loss:3.2763 train_time:260522ms step_avg:173.80ms
step:1510/1530 train_loss:3.2694 train_time:260702ms step_avg:173.80ms
step:1511/1530 train_loss:3.4122 train_time:261015ms step_avg:173.89ms
step:1512/1530 train_loss:3.4132 train_time:261203ms step_avg:173.90ms
step:1513/1530 train_loss:3.2688 train_time:261389ms step_avg:173.91ms
step:1514/1530 train_loss:3.0793 train_time:261572ms step_avg:173.92ms
step:1515/1530 train_loss:3.2356 train_time:261753ms step_avg:173.92ms
step:1516/1530 train_loss:3.2512 train_time:261939ms step_avg:173.93ms
step:1517/1530 train_loss:3.2951 train_time:262120ms step_avg:173.93ms
step:1518/1530 train_loss:3.2030 train_time:262303ms step_avg:173.94ms
step:1519/1530 train_loss:3.4950 train_time:262641ms step_avg:174.05ms
step:1520/1530 train_loss:3.1218 train_time:262821ms step_avg:174.05ms
step:1521/1530 train_loss:3.2034 train_time:263000ms step_avg:174.06ms
step:1522/1530 train_loss:3.3482 train_time:263186ms step_avg:174.06ms
step:1523/1530 train_loss:3.2255 train_time:263363ms step_avg:174.07ms
step:1524/1530 train_loss:3.3447 train_time:263543ms step_avg:174.07ms
step:1525/1530 train_loss:3.3335 train_time:263730ms step_avg:174.08ms
step:1526/1530 train_loss:3.2694 train_time:263921ms step_avg:174.09ms
step:1527/1530 train_loss:3.2875 train_time:264103ms step_avg:174.10ms
step:1528/1530 train_loss:3.4055 train_time:264282ms step_avg:174.10ms
step:1529/1530 train_loss:3.4031 train_time:264463ms step_avg:174.10ms
step:1530/1530 train_loss:3.2314 train_time:264641ms step_avg:174.11ms
step:1530/1530 val_loss:3.2723 train_time:264697ms step_avg:174.14ms