records/120424_ValueEmbed/87f81569-fa04-4eb3-8b75-42c116e96ba0.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 03:47:41 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |     39MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |     31MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             127W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:32022ms step_avg:nanms
step:2/1530 train_loss:10.0728 train_time:32132ms step_avg:nanms
step:3/1530 train_loss:8.3527 train_time:32292ms step_avg:nanms
step:4/1530 train_loss:7.6338 train_time:32452ms step_avg:nanms
step:5/1530 train_loss:7.4748 train_time:32612ms step_avg:nanms
step:6/1530 train_loss:6.9979 train_time:32773ms step_avg:nanms
step:7/1530 train_loss:7.2115 train_time:32932ms step_avg:nanms
step:8/1530 train_loss:6.7433 train_time:33093ms step_avg:nanms
step:9/1530 train_loss:6.6279 train_time:33253ms step_avg:nanms
step:10/1530 train_loss:6.5128 train_time:33413ms step_avg:nanms
step:11/1530 train_loss:6.5380 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3720 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2652 train_time:436ms step_avg:145.34ms
step:14/1530 train_loss:6.2111 train_time:596ms step_avg:149.02ms
step:15/1530 train_loss:6.2047 train_time:757ms step_avg:151.31ms
step:16/1530 train_loss:6.1035 train_time:917ms step_avg:152.85ms
step:17/1530 train_loss:6.1789 train_time:1077ms step_avg:153.79ms
step:18/1530 train_loss:5.9711 train_time:1237ms step_avg:154.67ms
step:19/1530 train_loss:6.0283 train_time:1397ms step_avg:155.24ms
step:20/1530 train_loss:5.6745 train_time:1559ms step_avg:155.89ms
step:21/1530 train_loss:5.9632 train_time:1719ms step_avg:156.28ms
step:22/1530 train_loss:6.1931 train_time:1880ms step_avg:156.64ms
step:23/1530 train_loss:5.8590 train_time:2040ms step_avg:156.91ms
step:24/1530 train_loss:6.0249 train_time:2199ms step_avg:157.08ms
step:25/1530 train_loss:5.7102 train_time:2359ms step_avg:157.30ms
step:26/1530 train_loss:5.6056 train_time:2520ms step_avg:157.50ms
step:27/1530 train_loss:5.7866 train_time:2680ms step_avg:157.65ms
step:28/1530 train_loss:5.4111 train_time:2841ms step_avg:157.81ms
step:29/1530 train_loss:5.6952 train_time:3001ms step_avg:157.92ms
step:30/1530 train_loss:5.4737 train_time:3161ms step_avg:158.04ms
step:31/1530 train_loss:5.4483 train_time:3322ms step_avg:158.19ms
step:32/1530 train_loss:5.2888 train_time:3482ms step_avg:158.29ms
step:33/1530 train_loss:5.5913 train_time:3643ms step_avg:158.40ms
step:34/1530 train_loss:5.4948 train_time:3803ms step_avg:158.46ms
step:35/1530 train_loss:5.6256 train_time:3964ms step_avg:158.55ms
step:36/1530 train_loss:5.5770 train_time:4124ms step_avg:158.62ms
step:37/1530 train_loss:5.4680 train_time:4284ms step_avg:158.68ms
step:38/1530 train_loss:5.3214 train_time:4445ms step_avg:158.75ms
step:39/1530 train_loss:5.3480 train_time:4605ms step_avg:158.81ms
step:40/1530 train_loss:5.2576 train_time:4765ms step_avg:158.84ms
step:41/1530 train_loss:5.2347 train_time:4925ms step_avg:158.87ms
step:42/1530 train_loss:5.1683 train_time:5085ms step_avg:158.91ms
step:43/1530 train_loss:5.2698 train_time:5246ms step_avg:158.98ms
step:44/1530 train_loss:5.2281 train_time:5406ms step_avg:159.01ms
step:45/1530 train_loss:5.3835 train_time:5566ms step_avg:159.03ms
step:46/1530 train_loss:5.1863 train_time:5726ms step_avg:159.06ms
step:47/1530 train_loss:5.0948 train_time:5887ms step_avg:159.10ms
step:48/1530 train_loss:5.2205 train_time:6046ms step_avg:159.11ms
step:49/1530 train_loss:5.1534 train_time:6207ms step_avg:159.15ms
step:50/1530 train_loss:5.2549 train_time:6367ms step_avg:159.16ms
step:51/1530 train_loss:5.1427 train_time:6527ms step_avg:159.20ms
step:52/1530 train_loss:5.0319 train_time:6688ms step_avg:159.24ms
step:53/1530 train_loss:5.1699 train_time:6848ms step_avg:159.26ms
step:54/1530 train_loss:5.0024 train_time:7008ms step_avg:159.27ms
step:55/1530 train_loss:5.4088 train_time:7167ms step_avg:159.27ms
step:56/1530 train_loss:5.0271 train_time:7328ms step_avg:159.31ms
step:57/1530 train_loss:4.8828 train_time:7489ms step_avg:159.35ms
step:58/1530 train_loss:5.0563 train_time:7649ms step_avg:159.35ms
step:59/1530 train_loss:5.0480 train_time:7811ms step_avg:159.40ms
step:60/1530 train_loss:5.1395 train_time:7971ms step_avg:159.42ms
step:61/1530 train_loss:4.8455 train_time:8133ms step_avg:159.47ms
step:62/1530 train_loss:4.9769 train_time:8293ms step_avg:159.48ms
step:63/1530 train_loss:4.9719 train_time:8453ms step_avg:159.50ms
step:64/1530 train_loss:4.9816 train_time:8613ms step_avg:159.50ms
step:65/1530 train_loss:4.7940 train_time:8773ms step_avg:159.52ms
step:66/1530 train_loss:4.9577 train_time:8934ms step_avg:159.53ms
step:67/1530 train_loss:4.8526 train_time:9093ms step_avg:159.53ms
step:68/1530 train_loss:5.1118 train_time:9255ms step_avg:159.56ms
step:69/1530 train_loss:4.7171 train_time:9417ms step_avg:159.60ms
step:70/1530 train_loss:4.8769 train_time:9576ms step_avg:159.61ms
step:71/1530 train_loss:4.9751 train_time:9737ms step_avg:159.62ms
step:72/1530 train_loss:4.8915 train_time:9897ms step_avg:159.62ms
step:73/1530 train_loss:4.7618 train_time:10058ms step_avg:159.64ms
step:74/1530 train_loss:4.9147 train_time:10218ms step_avg:159.66ms
step:75/1530 train_loss:4.8683 train_time:10378ms step_avg:159.67ms
step:76/1530 train_loss:4.8057 train_time:10539ms step_avg:159.68ms
step:77/1530 train_loss:4.9119 train_time:10699ms step_avg:159.68ms
step:78/1530 train_loss:5.1266 train_time:10859ms step_avg:159.69ms
step:79/1530 train_loss:4.8122 train_time:11019ms step_avg:159.70ms
step:80/1530 train_loss:4.8614 train_time:11179ms step_avg:159.70ms
step:81/1530 train_loss:4.6485 train_time:11339ms step_avg:159.71ms
step:82/1530 train_loss:4.8104 train_time:11499ms step_avg:159.71ms
step:83/1530 train_loss:4.7844 train_time:11660ms step_avg:159.72ms
step:84/1530 train_loss:4.7973 train_time:11820ms step_avg:159.73ms
step:85/1530 train_loss:4.6264 train_time:11981ms step_avg:159.74ms
step:86/1530 train_loss:4.8276 train_time:12141ms step_avg:159.75ms
step:87/1530 train_loss:4.7483 train_time:12304ms step_avg:159.79ms
step:88/1530 train_loss:4.7446 train_time:12463ms step_avg:159.78ms
step:89/1530 train_loss:4.7109 train_time:12623ms step_avg:159.79ms
step:90/1530 train_loss:4.6607 train_time:12785ms step_avg:159.81ms
step:91/1530 train_loss:4.6409 train_time:12946ms step_avg:159.83ms
step:92/1530 train_loss:4.7868 train_time:13107ms step_avg:159.84ms
step:93/1530 train_loss:4.6097 train_time:13266ms step_avg:159.83ms
step:94/1530 train_loss:4.6419 train_time:13428ms step_avg:159.85ms
step:95/1530 train_loss:4.6790 train_time:13588ms step_avg:159.86ms
step:96/1530 train_loss:4.5881 train_time:13750ms step_avg:159.88ms
step:97/1530 train_loss:4.6337 train_time:13910ms step_avg:159.89ms
step:98/1530 train_loss:4.5786 train_time:14071ms step_avg:159.90ms
step:99/1530 train_loss:4.6509 train_time:14232ms step_avg:159.91ms
step:100/1530 train_loss:4.6677 train_time:14393ms step_avg:159.92ms
step:101/1530 train_loss:4.5232 train_time:14554ms step_avg:159.93ms
step:102/1530 train_loss:4.7072 train_time:14715ms step_avg:159.94ms
step:103/1530 train_loss:4.5769 train_time:14875ms step_avg:159.95ms
step:104/1530 train_loss:4.5427 train_time:15036ms step_avg:159.95ms
step:105/1530 train_loss:4.5332 train_time:15195ms step_avg:159.95ms
step:106/1530 train_loss:4.6164 train_time:15356ms step_avg:159.96ms
step:107/1530 train_loss:4.4982 train_time:15517ms step_avg:159.97ms
step:108/1530 train_loss:4.3659 train_time:15677ms step_avg:159.97ms
step:109/1530 train_loss:4.4771 train_time:15839ms step_avg:159.99ms
step:110/1530 train_loss:4.4824 train_time:15998ms step_avg:159.98ms
step:111/1530 train_loss:4.4130 train_time:16159ms step_avg:159.99ms
step:112/1530 train_loss:4.5823 train_time:16320ms step_avg:160.00ms
step:113/1530 train_loss:4.4928 train_time:16480ms step_avg:160.00ms
step:114/1530 train_loss:4.3550 train_time:16641ms step_avg:160.01ms
step:115/1530 train_loss:4.5070 train_time:16804ms step_avg:160.04ms
step:116/1530 train_loss:4.4745 train_time:16969ms step_avg:160.09ms
step:117/1530 train_loss:4.3611 train_time:17133ms step_avg:160.12ms
step:118/1530 train_loss:4.5946 train_time:17297ms step_avg:160.16ms
step:119/1530 train_loss:4.4596 train_time:17460ms step_avg:160.19ms
step:120/1530 train_loss:4.3127 train_time:17624ms step_avg:160.22ms
step:121/1530 train_loss:4.2930 train_time:17788ms step_avg:160.26ms
step:122/1530 train_loss:4.4509 train_time:17951ms step_avg:160.28ms
step:123/1530 train_loss:4.2857 train_time:18115ms step_avg:160.31ms
step:124/1530 train_loss:4.5761 train_time:18279ms step_avg:160.34ms
step:125/1530 train_loss:4.4404 train_time:18443ms step_avg:160.37ms
step:125/1530 val_loss:4.3942 train_time:18490ms step_avg:160.78ms
step:126/1530 train_loss:4.4037 train_time:18609ms step_avg:160.42ms
step:127/1530 train_loss:4.4239 train_time:18776ms step_avg:160.48ms
step:128/1530 train_loss:4.3812 train_time:18940ms step_avg:160.51ms
step:129/1530 train_loss:4.6951 train_time:19104ms step_avg:160.54ms
step:130/1530 train_loss:4.3582 train_time:19268ms step_avg:160.57ms
step:131/1530 train_loss:4.3866 train_time:19432ms step_avg:160.60ms
step:132/1530 train_loss:4.3443 train_time:19598ms step_avg:160.64ms
step:133/1530 train_loss:4.4419 train_time:19762ms step_avg:160.67ms
step:134/1530 train_loss:4.2517 train_time:19926ms step_avg:160.69ms
step:135/1530 train_loss:4.4382 train_time:20090ms step_avg:160.72ms
step:136/1530 train_loss:4.2132 train_time:20256ms step_avg:160.76ms
step:137/1530 train_loss:4.3741 train_time:20422ms step_avg:160.80ms
step:138/1530 train_loss:4.2803 train_time:20587ms step_avg:160.84ms
step:139/1530 train_loss:4.3740 train_time:20751ms step_avg:160.86ms
step:140/1530 train_loss:4.4765 train_time:20914ms step_avg:160.88ms
step:141/1530 train_loss:4.3036 train_time:21079ms step_avg:160.91ms
step:142/1530 train_loss:4.2921 train_time:21243ms step_avg:160.93ms
step:143/1530 train_loss:4.2493 train_time:21407ms step_avg:160.95ms
step:144/1530 train_loss:4.3420 train_time:21571ms step_avg:160.98ms
step:145/1530 train_loss:4.3012 train_time:21736ms step_avg:161.01ms
step:146/1530 train_loss:4.1721 train_time:21899ms step_avg:161.03ms
step:147/1530 train_loss:4.3230 train_time:22063ms step_avg:161.04ms
step:148/1530 train_loss:4.3570 train_time:22227ms step_avg:161.06ms
step:149/1530 train_loss:4.2958 train_time:22390ms step_avg:161.08ms
step:150/1530 train_loss:4.4287 train_time:22555ms step_avg:161.11ms
step:151/1530 train_loss:4.2614 train_time:22721ms step_avg:161.14ms
step:152/1530 train_loss:4.2807 train_time:22885ms step_avg:161.16ms
step:153/1530 train_loss:4.3507 train_time:23049ms step_avg:161.19ms
step:154/1530 train_loss:4.3593 train_time:23213ms step_avg:161.20ms
step:155/1530 train_loss:4.2732 train_time:23379ms step_avg:161.23ms
step:156/1530 train_loss:4.3444 train_time:23542ms step_avg:161.24ms
step:157/1530 train_loss:4.3929 train_time:23706ms step_avg:161.27ms
step:158/1530 train_loss:4.2313 train_time:23869ms step_avg:161.28ms
step:159/1530 train_loss:4.3102 train_time:24035ms step_avg:161.31ms
step:160/1530 train_loss:4.1309 train_time:24199ms step_avg:161.32ms
step:161/1530 train_loss:4.3626 train_time:24362ms step_avg:161.34ms
step:162/1530 train_loss:4.3567 train_time:24526ms step_avg:161.35ms
step:163/1530 train_loss:4.3416 train_time:24689ms step_avg:161.37ms
step:164/1530 train_loss:4.1799 train_time:24853ms step_avg:161.39ms
step:165/1530 train_loss:4.2770 train_time:25018ms step_avg:161.41ms
step:166/1530 train_loss:4.3324 train_time:25181ms step_avg:161.42ms
step:167/1530 train_loss:4.1910 train_time:25345ms step_avg:161.43ms
step:168/1530 train_loss:4.2847 train_time:25509ms step_avg:161.45ms
step:169/1530 train_loss:4.1631 train_time:25671ms step_avg:161.45ms
step:170/1530 train_loss:4.0204 train_time:25837ms step_avg:161.48ms
step:171/1530 train_loss:4.1919 train_time:26001ms step_avg:161.49ms
step:172/1530 train_loss:4.2073 train_time:26163ms step_avg:161.50ms
step:173/1530 train_loss:4.2625 train_time:26325ms step_avg:161.51ms
step:174/1530 train_loss:4.4170 train_time:26488ms step_avg:161.51ms
step:175/1530 train_loss:4.2257 train_time:26650ms step_avg:161.51ms
step:176/1530 train_loss:4.0895 train_time:26814ms step_avg:161.53ms
step:177/1530 train_loss:4.0581 train_time:26977ms step_avg:161.54ms
step:178/1530 train_loss:4.1753 train_time:27140ms step_avg:161.55ms
step:179/1530 train_loss:4.1157 train_time:27303ms step_avg:161.56ms
step:180/1530 train_loss:4.1264 train_time:27465ms step_avg:161.56ms
step:181/1530 train_loss:4.2953 train_time:27628ms step_avg:161.57ms
step:182/1530 train_loss:4.1575 train_time:27791ms step_avg:161.57ms
step:183/1530 train_loss:4.1194 train_time:27955ms step_avg:161.59ms
step:184/1530 train_loss:4.1171 train_time:28119ms step_avg:161.61ms
step:185/1530 train_loss:4.1947 train_time:28282ms step_avg:161.61ms
step:186/1530 train_loss:4.1622 train_time:28445ms step_avg:161.62ms
step:187/1530 train_loss:4.2225 train_time:28608ms step_avg:161.63ms
step:188/1530 train_loss:4.1588 train_time:28906ms step_avg:162.40ms
step:189/1530 train_loss:4.1018 train_time:29246ms step_avg:163.38ms
step:190/1530 train_loss:4.1960 train_time:29408ms step_avg:163.38ms
step:191/1530 train_loss:4.0727 train_time:29571ms step_avg:163.38ms
step:192/1530 train_loss:4.0205 train_time:29734ms step_avg:163.37ms
step:193/1530 train_loss:4.2389 train_time:29898ms step_avg:163.38ms
step:194/1530 train_loss:4.1679 train_time:30061ms step_avg:163.38ms
step:195/1530 train_loss:4.3498 train_time:30224ms step_avg:163.38ms
step:196/1530 train_loss:4.1658 train_time:30386ms step_avg:163.37ms
step:197/1530 train_loss:4.0431 train_time:30550ms step_avg:163.37ms
step:198/1530 train_loss:4.1821 train_time:30712ms step_avg:163.36ms
step:199/1530 train_loss:4.0316 train_time:30876ms step_avg:163.36ms
step:200/1530 train_loss:4.1105 train_time:31040ms step_avg:163.37ms
step:201/1530 train_loss:4.0198 train_time:31204ms step_avg:163.37ms
step:202/1530 train_loss:4.2556 train_time:31366ms step_avg:163.36ms
step:203/1530 train_loss:4.0626 train_time:31528ms step_avg:163.36ms
step:204/1530 train_loss:4.1893 train_time:31691ms step_avg:163.35ms
step:205/1530 train_loss:4.2405 train_time:31855ms step_avg:163.36ms
step:206/1530 train_loss:3.9402 train_time:32019ms step_avg:163.36ms
step:207/1530 train_loss:4.0737 train_time:32182ms step_avg:163.36ms
step:208/1530 train_loss:4.0952 train_time:32344ms step_avg:163.36ms
step:209/1530 train_loss:4.2284 train_time:32506ms step_avg:163.35ms
step:210/1530 train_loss:4.1667 train_time:32669ms step_avg:163.34ms
step:211/1530 train_loss:4.0418 train_time:32833ms step_avg:163.35ms
step:212/1530 train_loss:4.1010 train_time:32997ms step_avg:163.35ms
step:213/1530 train_loss:4.0362 train_time:33160ms step_avg:163.35ms
step:214/1530 train_loss:4.1126 train_time:33323ms step_avg:163.35ms
step:215/1530 train_loss:3.9497 train_time:33485ms step_avg:163.34ms
step:216/1530 train_loss:3.9897 train_time:33647ms step_avg:163.34ms
step:217/1530 train_loss:3.9956 train_time:33811ms step_avg:163.34ms
step:218/1530 train_loss:4.0754 train_time:33974ms step_avg:163.34ms
step:219/1530 train_loss:4.0640 train_time:34138ms step_avg:163.34ms
step:220/1530 train_loss:4.0782 train_time:34301ms step_avg:163.34ms
step:221/1530 train_loss:4.0816 train_time:34463ms step_avg:163.33ms
step:222/1530 train_loss:3.9858 train_time:34626ms step_avg:163.33ms
step:223/1530 train_loss:3.9743 train_time:34789ms step_avg:163.33ms
step:224/1530 train_loss:4.2839 train_time:34952ms step_avg:163.33ms
step:225/1530 train_loss:3.9281 train_time:35116ms step_avg:163.33ms
step:226/1530 train_loss:3.9789 train_time:35278ms step_avg:163.32ms
step:227/1530 train_loss:3.9770 train_time:35440ms step_avg:163.32ms
step:228/1530 train_loss:4.1384 train_time:35605ms step_avg:163.33ms
step:229/1530 train_loss:3.9208 train_time:35770ms step_avg:163.34ms
step:230/1530 train_loss:4.0309 train_time:35936ms step_avg:163.35ms
step:231/1530 train_loss:3.8976 train_time:36103ms step_avg:163.36ms
step:232/1530 train_loss:3.9606 train_time:36267ms step_avg:163.37ms
step:233/1530 train_loss:4.0822 train_time:36434ms step_avg:163.38ms
step:234/1530 train_loss:4.0233 train_time:36603ms step_avg:163.40ms
step:235/1530 train_loss:3.8847 train_time:36767ms step_avg:163.41ms
step:236/1530 train_loss:4.0692 train_time:36934ms step_avg:163.42ms
step:237/1530 train_loss:4.0738 train_time:37100ms step_avg:163.44ms
step:238/1530 train_loss:3.9387 train_time:37265ms step_avg:163.44ms
step:239/1530 train_loss:4.0880 train_time:37430ms step_avg:163.45ms
step:240/1530 train_loss:4.1159 train_time:37598ms step_avg:163.47ms
step:241/1530 train_loss:3.9525 train_time:37763ms step_avg:163.48ms
step:242/1530 train_loss:4.1251 train_time:37930ms step_avg:163.49ms
step:243/1530 train_loss:4.0041 train_time:38095ms step_avg:163.50ms
step:244/1530 train_loss:4.0681 train_time:38262ms step_avg:163.51ms
step:245/1530 train_loss:4.1363 train_time:38428ms step_avg:163.52ms
step:246/1530 train_loss:4.0458 train_time:38595ms step_avg:163.54ms
step:247/1530 train_loss:3.9960 train_time:38760ms step_avg:163.55ms
step:248/1530 train_loss:4.0965 train_time:38927ms step_avg:163.56ms
step:249/1530 train_loss:3.9169 train_time:39093ms step_avg:163.57ms
step:250/1530 train_loss:3.9685 train_time:39258ms step_avg:163.58ms
step:250/1530 val_loss:3.9948 train_time:39306ms step_avg:163.78ms
step:251/1530 train_loss:4.0676 train_time:39426ms step_avg:163.59ms
step:252/1530 train_loss:4.1626 train_time:39592ms step_avg:163.60ms
step:253/1530 train_loss:3.9193 train_time:39760ms step_avg:163.62ms
step:254/1530 train_loss:3.8738 train_time:39926ms step_avg:163.63ms
step:255/1530 train_loss:4.0645 train_time:40091ms step_avg:163.64ms
step:256/1530 train_loss:3.9773 train_time:40256ms step_avg:163.64ms
step:257/1530 train_loss:3.9772 train_time:40424ms step_avg:163.66ms
step:258/1530 train_loss:3.9750 train_time:40591ms step_avg:163.67ms
step:259/1530 train_loss:4.0242 train_time:40757ms step_avg:163.68ms
step:260/1530 train_loss:4.0487 train_time:40924ms step_avg:163.70ms
step:261/1530 train_loss:4.0055 train_time:41090ms step_avg:163.71ms
step:262/1530 train_loss:3.9808 train_time:41257ms step_avg:163.72ms
step:263/1530 train_loss:3.8877 train_time:41423ms step_avg:163.73ms
step:264/1530 train_loss:3.9867 train_time:41589ms step_avg:163.74ms
step:265/1530 train_loss:3.8631 train_time:41755ms step_avg:163.75ms
step:266/1530 train_loss:3.9180 train_time:41921ms step_avg:163.76ms
step:267/1530 train_loss:3.9272 train_time:42087ms step_avg:163.76ms
step:268/1530 train_loss:3.9503 train_time:42253ms step_avg:163.77ms
step:269/1530 train_loss:3.8515 train_time:42418ms step_avg:163.78ms
step:270/1530 train_loss:4.0931 train_time:42585ms step_avg:163.79ms
step:271/1530 train_loss:3.9570 train_time:42750ms step_avg:163.79ms
step:272/1530 train_loss:3.9199 train_time:42915ms step_avg:163.80ms
step:273/1530 train_loss:3.9358 train_time:43084ms step_avg:163.82ms
step:274/1530 train_loss:4.0305 train_time:43249ms step_avg:163.82ms
step:275/1530 train_loss:4.0535 train_time:43416ms step_avg:163.84ms
step:276/1530 train_loss:4.2217 train_time:43585ms step_avg:163.85ms
step:277/1530 train_loss:4.0235 train_time:43750ms step_avg:163.86ms
step:278/1530 train_loss:4.0734 train_time:43916ms step_avg:163.86ms
step:279/1530 train_loss:3.9897 train_time:44083ms step_avg:163.88ms
step:280/1530 train_loss:4.1622 train_time:44250ms step_avg:163.89ms
step:281/1530 train_loss:3.9576 train_time:44417ms step_avg:163.90ms
step:282/1530 train_loss:3.9356 train_time:44585ms step_avg:163.92ms
step:283/1530 train_loss:3.9060 train_time:44751ms step_avg:163.92ms
step:284/1530 train_loss:4.0413 train_time:44917ms step_avg:163.93ms
step:285/1530 train_loss:4.0528 train_time:45083ms step_avg:163.94ms
step:286/1530 train_loss:4.0884 train_time:45248ms step_avg:163.94ms
step:287/1530 train_loss:3.8991 train_time:45413ms step_avg:163.95ms
step:288/1530 train_loss:4.0008 train_time:45580ms step_avg:163.96ms
step:289/1530 train_loss:3.8771 train_time:45745ms step_avg:163.96ms
step:290/1530 train_loss:3.8520 train_time:45910ms step_avg:163.97ms
step:291/1530 train_loss:3.9008 train_time:46076ms step_avg:163.97ms
step:292/1530 train_loss:3.8561 train_time:46241ms step_avg:163.98ms
step:293/1530 train_loss:3.8955 train_time:46406ms step_avg:163.98ms
step:294/1530 train_loss:3.9257 train_time:46571ms step_avg:163.98ms
step:295/1530 train_loss:3.8298 train_time:46736ms step_avg:163.99ms
step:296/1530 train_loss:3.8496 train_time:46902ms step_avg:163.99ms
step:297/1530 train_loss:3.8613 train_time:47067ms step_avg:164.00ms
step:298/1530 train_loss:3.9641 train_time:47232ms step_avg:164.00ms
step:299/1530 train_loss:3.8140 train_time:47397ms step_avg:164.00ms
step:300/1530 train_loss:3.9573 train_time:47564ms step_avg:164.01ms
step:301/1530 train_loss:3.9538 train_time:47729ms step_avg:164.02ms
step:302/1530 train_loss:3.9191 train_time:47894ms step_avg:164.02ms
step:303/1530 train_loss:3.9718 train_time:48059ms step_avg:164.02ms
step:304/1530 train_loss:3.9555 train_time:48224ms step_avg:164.03ms
step:305/1530 train_loss:4.4450 train_time:48390ms step_avg:164.03ms
step:306/1530 train_loss:3.9233 train_time:48554ms step_avg:164.03ms
step:307/1530 train_loss:3.8259 train_time:48720ms step_avg:164.04ms
step:308/1530 train_loss:3.9656 train_time:48885ms step_avg:164.04ms
step:309/1530 train_loss:3.8645 train_time:49050ms step_avg:164.05ms
step:310/1530 train_loss:4.0685 train_time:49214ms step_avg:164.05ms
step:311/1530 train_loss:3.9160 train_time:49381ms step_avg:164.06ms
step:312/1530 train_loss:3.8605 train_time:49546ms step_avg:164.06ms
step:313/1530 train_loss:3.9265 train_time:49711ms step_avg:164.06ms
step:314/1530 train_loss:4.0526 train_time:49877ms step_avg:164.07ms
step:315/1530 train_loss:3.9272 train_time:50042ms step_avg:164.07ms
step:316/1530 train_loss:3.7851 train_time:50207ms step_avg:164.07ms
step:317/1530 train_loss:3.8701 train_time:50373ms step_avg:164.08ms
step:318/1530 train_loss:3.9172 train_time:50538ms step_avg:164.08ms
step:319/1530 train_loss:3.8855 train_time:50703ms step_avg:164.09ms
step:320/1530 train_loss:4.0036 train_time:50868ms step_avg:164.09ms
step:321/1530 train_loss:3.9432 train_time:51032ms step_avg:164.09ms
step:322/1530 train_loss:3.9211 train_time:51199ms step_avg:164.10ms
step:323/1530 train_loss:4.0001 train_time:51365ms step_avg:164.10ms
step:324/1530 train_loss:3.9396 train_time:51529ms step_avg:164.10ms
step:325/1530 train_loss:4.0069 train_time:51693ms step_avg:164.11ms
step:326/1530 train_loss:3.8832 train_time:51859ms step_avg:164.11ms
step:327/1530 train_loss:4.3865 train_time:52024ms step_avg:164.11ms
step:328/1530 train_loss:4.0614 train_time:52189ms step_avg:164.12ms
step:329/1530 train_loss:3.7852 train_time:52355ms step_avg:164.12ms
step:330/1530 train_loss:3.7549 train_time:52522ms step_avg:164.13ms
step:331/1530 train_loss:3.9688 train_time:52686ms step_avg:164.13ms
step:332/1530 train_loss:3.9012 train_time:52851ms step_avg:164.13ms
step:333/1530 train_loss:3.8703 train_time:53017ms step_avg:164.14ms
step:334/1530 train_loss:3.8316 train_time:53183ms step_avg:164.15ms
step:335/1530 train_loss:4.0005 train_time:53348ms step_avg:164.15ms
step:336/1530 train_loss:3.9525 train_time:53512ms step_avg:164.15ms
step:337/1530 train_loss:4.4123 train_time:53678ms step_avg:164.15ms
step:338/1530 train_loss:3.9191 train_time:53844ms step_avg:164.16ms
step:339/1530 train_loss:3.8519 train_time:54008ms step_avg:164.16ms
step:340/1530 train_loss:3.9285 train_time:54174ms step_avg:164.16ms
step:341/1530 train_loss:3.8499 train_time:54341ms step_avg:164.17ms
step:342/1530 train_loss:3.7991 train_time:54509ms step_avg:164.18ms
step:343/1530 train_loss:3.8289 train_time:54676ms step_avg:164.19ms
step:344/1530 train_loss:3.9886 train_time:54845ms step_avg:164.21ms
step:345/1530 train_loss:3.8112 train_time:55013ms step_avg:164.22ms
step:346/1530 train_loss:3.7583 train_time:55183ms step_avg:164.23ms
step:347/1530 train_loss:3.7972 train_time:55351ms step_avg:164.25ms
step:348/1530 train_loss:3.8459 train_time:55519ms step_avg:164.26ms
step:349/1530 train_loss:3.8188 train_time:55688ms step_avg:164.27ms
step:350/1530 train_loss:3.5596 train_time:55856ms step_avg:164.28ms
step:351/1530 train_loss:3.8165 train_time:56025ms step_avg:164.30ms
step:352/1530 train_loss:4.1705 train_time:56192ms step_avg:164.30ms
step:353/1530 train_loss:3.6509 train_time:56362ms step_avg:164.32ms
step:354/1530 train_loss:3.9178 train_time:56529ms step_avg:164.33ms
step:355/1530 train_loss:3.7812 train_time:56697ms step_avg:164.34ms
step:356/1530 train_loss:3.8733 train_time:56866ms step_avg:164.35ms
step:357/1530 train_loss:3.7494 train_time:57033ms step_avg:164.36ms
step:358/1530 train_loss:3.8575 train_time:57201ms step_avg:164.37ms
step:359/1530 train_loss:3.7863 train_time:57370ms step_avg:164.39ms
step:360/1530 train_loss:3.4119 train_time:57539ms step_avg:164.40ms
step:361/1530 train_loss:4.0040 train_time:57708ms step_avg:164.41ms
step:362/1530 train_loss:3.9050 train_time:57875ms step_avg:164.42ms
step:363/1530 train_loss:3.8246 train_time:58043ms step_avg:164.43ms
step:364/1530 train_loss:3.7353 train_time:58211ms step_avg:164.44ms
step:365/1530 train_loss:3.9075 train_time:58379ms step_avg:164.45ms
step:366/1530 train_loss:3.8523 train_time:58548ms step_avg:164.46ms
step:367/1530 train_loss:3.8500 train_time:58716ms step_avg:164.47ms
step:368/1530 train_loss:3.8418 train_time:58885ms step_avg:164.48ms
step:369/1530 train_loss:3.7396 train_time:59052ms step_avg:164.49ms
step:370/1530 train_loss:3.8727 train_time:59220ms step_avg:164.50ms
step:371/1530 train_loss:3.7274 train_time:59388ms step_avg:164.51ms
step:372/1530 train_loss:3.6792 train_time:59556ms step_avg:164.52ms
step:373/1530 train_loss:3.9073 train_time:59723ms step_avg:164.53ms
step:374/1530 train_loss:3.8195 train_time:59890ms step_avg:164.53ms
step:375/1530 train_loss:3.7964 train_time:60059ms step_avg:164.55ms
step:375/1530 val_loss:3.8183 train_time:60107ms step_avg:164.68ms
step:376/1530 train_loss:3.8611 train_time:60229ms step_avg:164.56ms
step:377/1530 train_loss:3.7824 train_time:60530ms step_avg:164.93ms
step:378/1530 train_loss:3.8405 train_time:60708ms step_avg:164.97ms
step:379/1530 train_loss:3.8538 train_time:61026ms step_avg:165.38ms
step:380/1530 train_loss:3.9416 train_time:61194ms step_avg:165.39ms
step:381/1530 train_loss:3.8354 train_time:61361ms step_avg:165.39ms
step:382/1530 train_loss:3.7919 train_time:61532ms step_avg:165.41ms
step:383/1530 train_loss:3.7901 train_time:61700ms step_avg:165.42ms
step:384/1530 train_loss:3.8640 train_time:61867ms step_avg:165.42ms
step:385/1530 train_loss:3.7890 train_time:62035ms step_avg:165.43ms
step:386/1530 train_loss:3.8805 train_time:62202ms step_avg:165.43ms
step:387/1530 train_loss:4.0502 train_time:62371ms step_avg:165.44ms
step:388/1530 train_loss:3.7787 train_time:62538ms step_avg:165.44ms
step:389/1530 train_loss:3.7826 train_time:62708ms step_avg:165.46ms
step:390/1530 train_loss:3.8925 train_time:62875ms step_avg:165.46ms
step:391/1530 train_loss:3.8131 train_time:63042ms step_avg:165.47ms
step:392/1530 train_loss:3.9247 train_time:63211ms step_avg:165.47ms
step:393/1530 train_loss:3.7623 train_time:63377ms step_avg:165.47ms
step:394/1530 train_loss:3.8802 train_time:63544ms step_avg:165.48ms
step:395/1530 train_loss:3.6237 train_time:63712ms step_avg:165.49ms
step:396/1530 train_loss:3.8309 train_time:63880ms step_avg:165.49ms
step:397/1530 train_loss:3.8561 train_time:64047ms step_avg:165.50ms
step:398/1530 train_loss:3.8672 train_time:64215ms step_avg:165.50ms
step:399/1530 train_loss:3.7576 train_time:64381ms step_avg:165.50ms
step:400/1530 train_loss:3.8151 train_time:64550ms step_avg:165.51ms
step:401/1530 train_loss:3.9089 train_time:64717ms step_avg:165.52ms
step:402/1530 train_loss:3.8347 train_time:64885ms step_avg:165.52ms
step:403/1530 train_loss:3.9511 train_time:65053ms step_avg:165.53ms
step:404/1530 train_loss:3.6783 train_time:65221ms step_avg:165.53ms
step:405/1530 train_loss:3.7823 train_time:65388ms step_avg:165.54ms
step:406/1530 train_loss:4.0857 train_time:65555ms step_avg:165.54ms
step:407/1530 train_loss:3.7701 train_time:65723ms step_avg:165.55ms
step:408/1530 train_loss:3.8127 train_time:65890ms step_avg:165.55ms
step:409/1530 train_loss:3.8505 train_time:66057ms step_avg:165.56ms
step:410/1530 train_loss:3.7492 train_time:66224ms step_avg:165.56ms
step:411/1530 train_loss:3.7512 train_time:66391ms step_avg:165.56ms
step:412/1530 train_loss:4.1622 train_time:66558ms step_avg:165.57ms
step:413/1530 train_loss:3.7058 train_time:66724ms step_avg:165.57ms
step:414/1530 train_loss:4.0005 train_time:66891ms step_avg:165.57ms
step:415/1530 train_loss:3.7380 train_time:67059ms step_avg:165.58ms
step:416/1530 train_loss:3.7484 train_time:67227ms step_avg:165.58ms
step:417/1530 train_loss:3.9459 train_time:67393ms step_avg:165.59ms
step:418/1530 train_loss:3.6826 train_time:67559ms step_avg:165.59ms
step:419/1530 train_loss:3.7974 train_time:67729ms step_avg:165.60ms
step:420/1530 train_loss:3.6961 train_time:67896ms step_avg:165.60ms
step:421/1530 train_loss:3.6404 train_time:68063ms step_avg:165.60ms
step:422/1530 train_loss:3.7751 train_time:68231ms step_avg:165.61ms
step:423/1530 train_loss:3.8672 train_time:68397ms step_avg:165.61ms
step:424/1530 train_loss:3.6071 train_time:68565ms step_avg:165.62ms
step:425/1530 train_loss:3.7816 train_time:68735ms step_avg:165.63ms
step:426/1530 train_loss:3.6483 train_time:68902ms step_avg:165.63ms
step:427/1530 train_loss:3.8845 train_time:69070ms step_avg:165.64ms
step:428/1530 train_loss:3.7996 train_time:69237ms step_avg:165.64ms
step:429/1530 train_loss:3.7499 train_time:69405ms step_avg:165.65ms
step:430/1530 train_loss:3.7042 train_time:69572ms step_avg:165.65ms
step:431/1530 train_loss:3.6153 train_time:69738ms step_avg:165.65ms
step:432/1530 train_loss:3.7565 train_time:69906ms step_avg:165.65ms
step:433/1530 train_loss:3.8077 train_time:70073ms step_avg:165.66ms
step:434/1530 train_loss:3.7709 train_time:70240ms step_avg:165.66ms
step:435/1530 train_loss:3.7970 train_time:70408ms step_avg:165.67ms
step:436/1530 train_loss:3.8236 train_time:70573ms step_avg:165.67ms
step:437/1530 train_loss:3.7102 train_time:70740ms step_avg:165.67ms
step:438/1530 train_loss:3.6981 train_time:70907ms step_avg:165.67ms
step:439/1530 train_loss:3.7019 train_time:71074ms step_avg:165.67ms
step:440/1530 train_loss:3.8854 train_time:71242ms step_avg:165.68ms
step:441/1530 train_loss:3.7501 train_time:71411ms step_avg:165.69ms
step:442/1530 train_loss:3.7273 train_time:71577ms step_avg:165.69ms
step:443/1530 train_loss:3.6163 train_time:71744ms step_avg:165.69ms
step:444/1530 train_loss:3.9159 train_time:71911ms step_avg:165.69ms
step:445/1530 train_loss:3.8350 train_time:72077ms step_avg:165.69ms
step:446/1530 train_loss:3.8242 train_time:72245ms step_avg:165.70ms
step:447/1530 train_loss:3.7422 train_time:72414ms step_avg:165.71ms
step:448/1530 train_loss:3.8432 train_time:72579ms step_avg:165.71ms
step:449/1530 train_loss:3.6818 train_time:72747ms step_avg:165.71ms
step:450/1530 train_loss:3.7071 train_time:72914ms step_avg:165.71ms
step:451/1530 train_loss:3.5722 train_time:73082ms step_avg:165.72ms
step:452/1530 train_loss:3.7014 train_time:73250ms step_avg:165.72ms
step:453/1530 train_loss:3.6666 train_time:73416ms step_avg:165.72ms
step:454/1530 train_loss:3.6281 train_time:73584ms step_avg:165.73ms
step:455/1530 train_loss:3.8316 train_time:73752ms step_avg:165.74ms
step:456/1530 train_loss:3.7131 train_time:73922ms step_avg:165.74ms
step:457/1530 train_loss:3.7719 train_time:74093ms step_avg:165.76ms
step:458/1530 train_loss:3.8149 train_time:74262ms step_avg:165.76ms
step:459/1530 train_loss:3.6268 train_time:74435ms step_avg:165.78ms
step:460/1530 train_loss:3.7808 train_time:74604ms step_avg:165.79ms
step:461/1530 train_loss:3.6853 train_time:74774ms step_avg:165.80ms
step:462/1530 train_loss:3.7274 train_time:74943ms step_avg:165.80ms
step:463/1530 train_loss:3.7678 train_time:75114ms step_avg:165.81ms
step:464/1530 train_loss:3.7091 train_time:75284ms step_avg:165.82ms
step:465/1530 train_loss:3.7038 train_time:75453ms step_avg:165.83ms
step:466/1530 train_loss:3.7867 train_time:75622ms step_avg:165.84ms
step:467/1530 train_loss:3.8116 train_time:75794ms step_avg:165.85ms
step:468/1530 train_loss:3.7859 train_time:75963ms step_avg:165.86ms
step:469/1530 train_loss:3.6750 train_time:76134ms step_avg:165.87ms
step:470/1530 train_loss:3.7564 train_time:76303ms step_avg:165.88ms
step:471/1530 train_loss:3.7989 train_time:76473ms step_avg:165.89ms
step:472/1530 train_loss:3.7727 train_time:76644ms step_avg:165.90ms
step:473/1530 train_loss:3.7069 train_time:76815ms step_avg:165.91ms
step:474/1530 train_loss:3.5852 train_time:76984ms step_avg:165.91ms
step:475/1530 train_loss:3.9948 train_time:77154ms step_avg:165.92ms
step:476/1530 train_loss:3.7463 train_time:77323ms step_avg:165.93ms
step:477/1530 train_loss:3.5832 train_time:77494ms step_avg:165.94ms
step:478/1530 train_loss:3.8157 train_time:77663ms step_avg:165.95ms
step:479/1530 train_loss:3.7674 train_time:77833ms step_avg:165.95ms
step:480/1530 train_loss:3.9136 train_time:78003ms step_avg:165.96ms
step:481/1530 train_loss:3.7191 train_time:78171ms step_avg:165.97ms
step:482/1530 train_loss:3.5207 train_time:78340ms step_avg:165.98ms
step:483/1530 train_loss:3.7963 train_time:78511ms step_avg:165.99ms
step:484/1530 train_loss:3.6504 train_time:78680ms step_avg:165.99ms
step:485/1530 train_loss:3.6430 train_time:78851ms step_avg:166.00ms
step:486/1530 train_loss:3.5626 train_time:79021ms step_avg:166.01ms
step:487/1530 train_loss:3.6768 train_time:79190ms step_avg:166.02ms
step:488/1530 train_loss:3.8683 train_time:79360ms step_avg:166.03ms
step:489/1530 train_loss:3.6995 train_time:79532ms step_avg:166.04ms
step:490/1530 train_loss:3.5818 train_time:79701ms step_avg:166.04ms
step:491/1530 train_loss:3.6087 train_time:79871ms step_avg:166.05ms
step:492/1530 train_loss:3.7224 train_time:80040ms step_avg:166.06ms
step:493/1530 train_loss:3.5642 train_time:80212ms step_avg:166.07ms
step:494/1530 train_loss:3.6921 train_time:80380ms step_avg:166.07ms
step:495/1530 train_loss:3.6611 train_time:80551ms step_avg:166.08ms
step:496/1530 train_loss:3.5025 train_time:80721ms step_avg:166.09ms
step:497/1530 train_loss:3.7226 train_time:80891ms step_avg:166.10ms
step:498/1530 train_loss:3.7815 train_time:81059ms step_avg:166.10ms
step:499/1530 train_loss:3.8120 train_time:81229ms step_avg:166.11ms
step:500/1530 train_loss:3.7282 train_time:81399ms step_avg:166.12ms
step:500/1530 val_loss:3.6967 train_time:81448ms step_avg:166.22ms
step:501/1530 train_loss:3.7973 train_time:81571ms step_avg:166.13ms
step:502/1530 train_loss:3.7460 train_time:81740ms step_avg:166.14ms
step:503/1530 train_loss:3.7689 train_time:81910ms step_avg:166.15ms
step:504/1530 train_loss:3.7135 train_time:82078ms step_avg:166.15ms
step:505/1530 train_loss:3.7954 train_time:82249ms step_avg:166.16ms
step:506/1530 train_loss:3.6409 train_time:82417ms step_avg:166.16ms
step:507/1530 train_loss:3.7553 train_time:82586ms step_avg:166.17ms
step:508/1530 train_loss:3.8159 train_time:82756ms step_avg:166.18ms
step:509/1530 train_loss:3.7583 train_time:82926ms step_avg:166.18ms
step:510/1530 train_loss:3.5662 train_time:83095ms step_avg:166.19ms
step:511/1530 train_loss:3.7640 train_time:83266ms step_avg:166.20ms
step:512/1530 train_loss:3.7122 train_time:83436ms step_avg:166.21ms
step:513/1530 train_loss:3.6559 train_time:83605ms step_avg:166.21ms
step:514/1530 train_loss:3.7739 train_time:83776ms step_avg:166.22ms
step:515/1530 train_loss:3.7236 train_time:83943ms step_avg:166.22ms
step:516/1530 train_loss:4.0662 train_time:84113ms step_avg:166.23ms
step:517/1530 train_loss:3.6810 train_time:84281ms step_avg:166.23ms
step:518/1530 train_loss:3.7552 train_time:84451ms step_avg:166.24ms
step:519/1530 train_loss:3.6473 train_time:84619ms step_avg:166.25ms
step:520/1530 train_loss:3.6674 train_time:84788ms step_avg:166.25ms
step:521/1530 train_loss:3.6493 train_time:84957ms step_avg:166.26ms
step:522/1530 train_loss:3.6417 train_time:85126ms step_avg:166.26ms
step:523/1530 train_loss:4.2924 train_time:85295ms step_avg:166.27ms
step:524/1530 train_loss:3.7286 train_time:85464ms step_avg:166.27ms
step:525/1530 train_loss:3.6655 train_time:85631ms step_avg:166.27ms
step:526/1530 train_loss:3.6882 train_time:85800ms step_avg:166.28ms
step:527/1530 train_loss:3.6503 train_time:85969ms step_avg:166.29ms
step:528/1530 train_loss:3.6205 train_time:86138ms step_avg:166.29ms
step:529/1530 train_loss:3.8419 train_time:86309ms step_avg:166.30ms
step:530/1530 train_loss:3.6381 train_time:86477ms step_avg:166.30ms
step:531/1530 train_loss:3.9102 train_time:86649ms step_avg:166.31ms
step:532/1530 train_loss:3.7234 train_time:86816ms step_avg:166.31ms
step:533/1530 train_loss:3.6454 train_time:86987ms step_avg:166.32ms
step:534/1530 train_loss:3.6609 train_time:87156ms step_avg:166.33ms
step:535/1530 train_loss:3.5966 train_time:87326ms step_avg:166.34ms
step:536/1530 train_loss:3.7415 train_time:87496ms step_avg:166.34ms
step:537/1530 train_loss:3.7131 train_time:87668ms step_avg:166.35ms
step:538/1530 train_loss:3.6163 train_time:87837ms step_avg:166.36ms
step:539/1530 train_loss:4.1048 train_time:88008ms step_avg:166.37ms
step:540/1530 train_loss:3.6651 train_time:88177ms step_avg:166.37ms
step:541/1530 train_loss:3.7768 train_time:88347ms step_avg:166.38ms
step:542/1530 train_loss:3.5769 train_time:88514ms step_avg:166.38ms
step:543/1530 train_loss:3.5768 train_time:88683ms step_avg:166.39ms
step:544/1530 train_loss:3.6218 train_time:88853ms step_avg:166.39ms
step:545/1530 train_loss:3.5794 train_time:89022ms step_avg:166.40ms
step:546/1530 train_loss:3.6109 train_time:89193ms step_avg:166.40ms
step:547/1530 train_loss:3.6279 train_time:89362ms step_avg:166.41ms
step:548/1530 train_loss:3.5922 train_time:89531ms step_avg:166.41ms
step:549/1530 train_loss:3.7124 train_time:89698ms step_avg:166.42ms
step:550/1530 train_loss:3.6107 train_time:89870ms step_avg:166.43ms
step:551/1530 train_loss:3.6206 train_time:90037ms step_avg:166.43ms
step:552/1530 train_loss:3.9192 train_time:90208ms step_avg:166.43ms
step:553/1530 train_loss:3.7486 train_time:90377ms step_avg:166.44ms
step:554/1530 train_loss:3.7025 train_time:90546ms step_avg:166.44ms
step:555/1530 train_loss:3.6203 train_time:90714ms step_avg:166.45ms
step:556/1530 train_loss:3.6917 train_time:90883ms step_avg:166.45ms
step:557/1530 train_loss:3.3004 train_time:91053ms step_avg:166.46ms
step:558/1530 train_loss:3.6017 train_time:91221ms step_avg:166.46ms
step:559/1530 train_loss:3.6386 train_time:91391ms step_avg:166.47ms
step:560/1530 train_loss:3.6802 train_time:91559ms step_avg:166.47ms
step:561/1530 train_loss:3.5986 train_time:91729ms step_avg:166.48ms
step:562/1530 train_loss:3.5472 train_time:91897ms step_avg:166.48ms
step:563/1530 train_loss:3.7498 train_time:92066ms step_avg:166.48ms
step:564/1530 train_loss:3.5660 train_time:92235ms step_avg:166.49ms
step:565/1530 train_loss:3.6761 train_time:92405ms step_avg:166.50ms
step:566/1530 train_loss:3.6142 train_time:92708ms step_avg:166.74ms
step:567/1530 train_loss:3.5957 train_time:92886ms step_avg:166.76ms
step:568/1530 train_loss:3.6723 train_time:93056ms step_avg:166.77ms
step:569/1530 train_loss:3.6379 train_time:93385ms step_avg:167.06ms
step:570/1530 train_loss:3.6792 train_time:93557ms step_avg:167.07ms
step:571/1530 train_loss:3.7519 train_time:93728ms step_avg:167.07ms
step:572/1530 train_loss:3.7155 train_time:93899ms step_avg:167.08ms
step:573/1530 train_loss:3.7255 train_time:94073ms step_avg:167.09ms
step:574/1530 train_loss:3.7626 train_time:94246ms step_avg:167.10ms
step:575/1530 train_loss:3.7198 train_time:94415ms step_avg:167.11ms
step:576/1530 train_loss:3.7511 train_time:94587ms step_avg:167.11ms
step:577/1530 train_loss:3.6658 train_time:94759ms step_avg:167.12ms
step:578/1530 train_loss:3.6631 train_time:94930ms step_avg:167.13ms
step:579/1530 train_loss:3.6625 train_time:95100ms step_avg:167.14ms
step:580/1530 train_loss:3.5809 train_time:95273ms step_avg:167.15ms
step:581/1530 train_loss:3.6310 train_time:95445ms step_avg:167.15ms
step:582/1530 train_loss:3.8341 train_time:95615ms step_avg:167.16ms
step:583/1530 train_loss:3.6171 train_time:95786ms step_avg:167.17ms
step:584/1530 train_loss:3.5826 train_time:95958ms step_avg:167.17ms
step:585/1530 train_loss:3.7805 train_time:96128ms step_avg:167.18ms
step:586/1530 train_loss:3.5068 train_time:96300ms step_avg:167.19ms
step:587/1530 train_loss:3.6585 train_time:96472ms step_avg:167.20ms
step:588/1530 train_loss:3.6330 train_time:96643ms step_avg:167.20ms
step:589/1530 train_loss:3.9866 train_time:96815ms step_avg:167.21ms
step:590/1530 train_loss:3.7747 train_time:96987ms step_avg:167.22ms
step:591/1530 train_loss:3.4932 train_time:97158ms step_avg:167.23ms
step:592/1530 train_loss:3.5234 train_time:97333ms step_avg:167.24ms
step:593/1530 train_loss:3.4872 train_time:97506ms step_avg:167.25ms
step:594/1530 train_loss:3.5413 train_time:97678ms step_avg:167.26ms
step:595/1530 train_loss:3.9140 train_time:97853ms step_avg:167.27ms
step:596/1530 train_loss:3.6387 train_time:98026ms step_avg:167.28ms
step:597/1530 train_loss:3.5782 train_time:98197ms step_avg:167.29ms
step:598/1530 train_loss:3.6496 train_time:98369ms step_avg:167.29ms
step:599/1530 train_loss:3.4673 train_time:98539ms step_avg:167.30ms
step:600/1530 train_loss:3.5865 train_time:98711ms step_avg:167.31ms
step:601/1530 train_loss:3.6386 train_time:98884ms step_avg:167.32ms
step:602/1530 train_loss:3.6589 train_time:99057ms step_avg:167.33ms
step:603/1530 train_loss:3.7735 train_time:99230ms step_avg:167.34ms
step:604/1530 train_loss:3.5944 train_time:99402ms step_avg:167.34ms
step:605/1530 train_loss:3.6030 train_time:99575ms step_avg:167.35ms
step:606/1530 train_loss:3.5661 train_time:99750ms step_avg:167.37ms
step:607/1530 train_loss:3.8309 train_time:99921ms step_avg:167.37ms
step:608/1530 train_loss:3.6248 train_time:100093ms step_avg:167.38ms
step:609/1530 train_loss:3.6074 train_time:100266ms step_avg:167.39ms
step:610/1530 train_loss:3.6879 train_time:100435ms step_avg:167.39ms
step:611/1530 train_loss:3.5903 train_time:100605ms step_avg:167.40ms
step:612/1530 train_loss:3.5670 train_time:100777ms step_avg:167.40ms
step:613/1530 train_loss:3.7476 train_time:100948ms step_avg:167.41ms
step:614/1530 train_loss:3.6863 train_time:101120ms step_avg:167.42ms
step:615/1530 train_loss:3.6837 train_time:101290ms step_avg:167.42ms
step:616/1530 train_loss:3.6173 train_time:101460ms step_avg:167.43ms
step:617/1530 train_loss:3.5488 train_time:101633ms step_avg:167.44ms
step:618/1530 train_loss:3.6788 train_time:101804ms step_avg:167.44ms
step:619/1530 train_loss:3.5477 train_time:101975ms step_avg:167.45ms
step:620/1530 train_loss:3.5783 train_time:102145ms step_avg:167.45ms
step:621/1530 train_loss:3.9217 train_time:102318ms step_avg:167.46ms
step:622/1530 train_loss:3.5622 train_time:102490ms step_avg:167.47ms
step:623/1530 train_loss:3.5985 train_time:102664ms step_avg:167.48ms
step:624/1530 train_loss:3.6824 train_time:102834ms step_avg:167.48ms
step:625/1530 train_loss:3.6932 train_time:103004ms step_avg:167.49ms
step:625/1530 val_loss:3.6122 train_time:103053ms step_avg:167.57ms
step:626/1530 train_loss:3.7294 train_time:103174ms step_avg:167.49ms
step:627/1530 train_loss:3.7103 train_time:103345ms step_avg:167.50ms
step:628/1530 train_loss:3.7567 train_time:103516ms step_avg:167.50ms
step:629/1530 train_loss:3.5857 train_time:103687ms step_avg:167.51ms
step:630/1530 train_loss:3.7177 train_time:103858ms step_avg:167.51ms
step:631/1530 train_loss:3.7296 train_time:104028ms step_avg:167.52ms
step:632/1530 train_loss:3.6436 train_time:104202ms step_avg:167.53ms
step:633/1530 train_loss:3.5970 train_time:104373ms step_avg:167.53ms
step:634/1530 train_loss:3.6905 train_time:104543ms step_avg:167.54ms
step:635/1530 train_loss:3.9411 train_time:104713ms step_avg:167.54ms
step:636/1530 train_loss:3.5367 train_time:104883ms step_avg:167.54ms
step:637/1530 train_loss:3.3422 train_time:105056ms step_avg:167.55ms
step:638/1530 train_loss:3.5807 train_time:105225ms step_avg:167.56ms
step:639/1530 train_loss:3.6230 train_time:105397ms step_avg:167.56ms
step:640/1530 train_loss:3.5570 train_time:105566ms step_avg:167.57ms
step:641/1530 train_loss:3.5731 train_time:105737ms step_avg:167.57ms
step:642/1530 train_loss:3.6298 train_time:105906ms step_avg:167.57ms
step:643/1530 train_loss:3.5866 train_time:106079ms step_avg:167.58ms
step:644/1530 train_loss:3.5462 train_time:106250ms step_avg:167.59ms
step:645/1530 train_loss:3.7665 train_time:106422ms step_avg:167.59ms
step:646/1530 train_loss:3.6596 train_time:106595ms step_avg:167.60ms
step:647/1530 train_loss:3.6588 train_time:106765ms step_avg:167.61ms
step:648/1530 train_loss:3.7053 train_time:106938ms step_avg:167.61ms
step:649/1530 train_loss:3.7613 train_time:107108ms step_avg:167.62ms
step:650/1530 train_loss:3.6072 train_time:107281ms step_avg:167.63ms
step:651/1530 train_loss:3.7633 train_time:107451ms step_avg:167.63ms
step:652/1530 train_loss:3.5776 train_time:107622ms step_avg:167.64ms
step:653/1530 train_loss:3.6510 train_time:107792ms step_avg:167.64ms
step:654/1530 train_loss:3.4150 train_time:107962ms step_avg:167.64ms
step:655/1530 train_loss:3.5685 train_time:108132ms step_avg:167.65ms
step:656/1530 train_loss:3.5665 train_time:108302ms step_avg:167.65ms
step:657/1530 train_loss:3.4863 train_time:108472ms step_avg:167.65ms
step:658/1530 train_loss:3.6764 train_time:108642ms step_avg:167.66ms
step:659/1530 train_loss:3.5726 train_time:108814ms step_avg:167.66ms
step:660/1530 train_loss:3.6689 train_time:108984ms step_avg:167.67ms
step:661/1530 train_loss:3.7470 train_time:109158ms step_avg:167.68ms
step:662/1530 train_loss:3.6636 train_time:109329ms step_avg:167.68ms
step:663/1530 train_loss:3.5470 train_time:109500ms step_avg:167.69ms
step:664/1530 train_loss:3.5992 train_time:109670ms step_avg:167.69ms
step:665/1530 train_loss:3.4860 train_time:109842ms step_avg:167.70ms
step:666/1530 train_loss:3.7720 train_time:110011ms step_avg:167.70ms
step:667/1530 train_loss:3.5978 train_time:110182ms step_avg:167.71ms
step:668/1530 train_loss:3.6416 train_time:110353ms step_avg:167.71ms
step:669/1530 train_loss:3.4813 train_time:110524ms step_avg:167.71ms
step:670/1530 train_loss:3.5936 train_time:110695ms step_avg:167.72ms
step:671/1530 train_loss:3.5547 train_time:110865ms step_avg:167.72ms
step:672/1530 train_loss:3.5557 train_time:111037ms step_avg:167.73ms
step:673/1530 train_loss:3.8417 train_time:111206ms step_avg:167.73ms
step:674/1530 train_loss:3.6132 train_time:111378ms step_avg:167.74ms
step:675/1530 train_loss:3.7025 train_time:111549ms step_avg:167.74ms
step:676/1530 train_loss:3.4855 train_time:111720ms step_avg:167.75ms
step:677/1530 train_loss:3.5911 train_time:111892ms step_avg:167.75ms
step:678/1530 train_loss:3.5525 train_time:112062ms step_avg:167.76ms
step:679/1530 train_loss:3.6678 train_time:112232ms step_avg:167.76ms
step:680/1530 train_loss:3.5739 train_time:112402ms step_avg:167.76ms
step:681/1530 train_loss:3.6074 train_time:112575ms step_avg:167.77ms
step:682/1530 train_loss:3.6548 train_time:112749ms step_avg:167.78ms
step:683/1530 train_loss:3.7293 train_time:112923ms step_avg:167.79ms
step:684/1530 train_loss:3.6418 train_time:113094ms step_avg:167.80ms
step:685/1530 train_loss:3.6800 train_time:113266ms step_avg:167.80ms
step:686/1530 train_loss:3.6287 train_time:113438ms step_avg:167.81ms
step:687/1530 train_loss:3.6529 train_time:113608ms step_avg:167.81ms
step:688/1530 train_loss:3.2141 train_time:113785ms step_avg:167.82ms
step:689/1530 train_loss:3.3964 train_time:113959ms step_avg:167.83ms
step:690/1530 train_loss:3.5308 train_time:114132ms step_avg:167.84ms
step:691/1530 train_loss:3.4054 train_time:114305ms step_avg:167.85ms
step:692/1530 train_loss:3.6209 train_time:114478ms step_avg:167.86ms
step:693/1530 train_loss:3.6408 train_time:114650ms step_avg:167.86ms
step:694/1530 train_loss:3.5443 train_time:114822ms step_avg:167.87ms
step:695/1530 train_loss:3.5226 train_time:114994ms step_avg:167.87ms
step:696/1530 train_loss:3.8438 train_time:115165ms step_avg:167.88ms
step:697/1530 train_loss:3.5800 train_time:115339ms step_avg:167.89ms
step:698/1530 train_loss:3.6371 train_time:115510ms step_avg:167.89ms
step:699/1530 train_loss:3.7552 train_time:115684ms step_avg:167.90ms
step:700/1530 train_loss:3.5628 train_time:115857ms step_avg:167.91ms
step:701/1530 train_loss:3.5382 train_time:116028ms step_avg:167.91ms
step:702/1530 train_loss:3.5042 train_time:116203ms step_avg:167.92ms
step:703/1530 train_loss:3.4919 train_time:116375ms step_avg:167.93ms
step:704/1530 train_loss:3.5655 train_time:116547ms step_avg:167.94ms
step:705/1530 train_loss:3.5552 train_time:116724ms step_avg:167.95ms
step:706/1530 train_loss:3.5688 train_time:116900ms step_avg:167.96ms
step:707/1530 train_loss:3.6422 train_time:117075ms step_avg:167.97ms
step:708/1530 train_loss:3.5949 train_time:117247ms step_avg:167.98ms
step:709/1530 train_loss:3.5776 train_time:117422ms step_avg:167.99ms
step:710/1530 train_loss:3.5283 train_time:117594ms step_avg:167.99ms
step:711/1530 train_loss:3.5830 train_time:117766ms step_avg:168.00ms
step:712/1530 train_loss:3.6363 train_time:117942ms step_avg:168.01ms
step:713/1530 train_loss:3.6415 train_time:118119ms step_avg:168.02ms
step:714/1530 train_loss:3.5560 train_time:118292ms step_avg:168.03ms
step:715/1530 train_loss:3.5584 train_time:118463ms step_avg:168.03ms
step:716/1530 train_loss:3.5738 train_time:118635ms step_avg:168.04ms
step:717/1530 train_loss:3.7007 train_time:118809ms step_avg:168.05ms
step:718/1530 train_loss:3.5826 train_time:118981ms step_avg:168.05ms
step:719/1530 train_loss:3.6723 train_time:119153ms step_avg:168.06ms
step:720/1530 train_loss:3.8409 train_time:119327ms step_avg:168.07ms
step:721/1530 train_loss:3.4604 train_time:119500ms step_avg:168.07ms
step:722/1530 train_loss:3.7262 train_time:119673ms step_avg:168.08ms
step:723/1530 train_loss:3.7676 train_time:119844ms step_avg:168.08ms
step:724/1530 train_loss:3.5561 train_time:120019ms step_avg:168.09ms
step:725/1530 train_loss:3.6422 train_time:120191ms step_avg:168.10ms
step:726/1530 train_loss:3.5241 train_time:120365ms step_avg:168.11ms
step:727/1530 train_loss:3.5746 train_time:120540ms step_avg:168.12ms
step:728/1530 train_loss:3.7153 train_time:120712ms step_avg:168.12ms
step:729/1530 train_loss:3.6653 train_time:120885ms step_avg:168.13ms
step:730/1530 train_loss:3.6532 train_time:121060ms step_avg:168.14ms
step:731/1530 train_loss:3.5434 train_time:121233ms step_avg:168.15ms
step:732/1530 train_loss:3.5862 train_time:121405ms step_avg:168.15ms
step:733/1530 train_loss:3.8266 train_time:121580ms step_avg:168.16ms
step:734/1530 train_loss:3.5492 train_time:121755ms step_avg:168.17ms
step:735/1530 train_loss:3.6042 train_time:121927ms step_avg:168.18ms
step:736/1530 train_loss:3.7308 train_time:122101ms step_avg:168.18ms
step:737/1530 train_loss:3.6684 train_time:122273ms step_avg:168.19ms
step:738/1530 train_loss:3.5869 train_time:122444ms step_avg:168.19ms
step:739/1530 train_loss:3.4910 train_time:122616ms step_avg:168.20ms
step:740/1530 train_loss:4.0980 train_time:122794ms step_avg:168.21ms
step:741/1530 train_loss:3.4738 train_time:122967ms step_avg:168.22ms
step:742/1530 train_loss:3.5403 train_time:123141ms step_avg:168.22ms
step:743/1530 train_loss:3.5699 train_time:123313ms step_avg:168.23ms
step:744/1530 train_loss:3.6382 train_time:123486ms step_avg:168.24ms
step:745/1530 train_loss:3.5782 train_time:123661ms step_avg:168.25ms
step:746/1530 train_loss:3.5884 train_time:123833ms step_avg:168.25ms
step:747/1530 train_loss:3.6405 train_time:124007ms step_avg:168.26ms
step:748/1530 train_loss:3.5510 train_time:124185ms step_avg:168.27ms
step:749/1530 train_loss:3.5535 train_time:124358ms step_avg:168.28ms
step:750/1530 train_loss:3.5905 train_time:124528ms step_avg:168.28ms
step:750/1530 val_loss:3.5559 train_time:124579ms step_avg:168.35ms
step:751/1530 train_loss:3.5644 train_time:124703ms step_avg:168.29ms
step:752/1530 train_loss:3.6055 train_time:124876ms step_avg:168.30ms
step:753/1530 train_loss:3.6143 train_time:125048ms step_avg:168.30ms
step:754/1530 train_loss:3.5888 train_time:125221ms step_avg:168.31ms
step:755/1530 train_loss:3.6769 train_time:125527ms step_avg:168.49ms
step:756/1530 train_loss:3.4458 train_time:125712ms step_avg:168.51ms
step:757/1530 train_loss:3.7135 train_time:125885ms step_avg:168.52ms
step:758/1530 train_loss:3.6416 train_time:126056ms step_avg:168.52ms
step:759/1530 train_loss:3.5841 train_time:126386ms step_avg:168.74ms
step:760/1530 train_loss:3.7009 train_time:126557ms step_avg:168.74ms
step:761/1530 train_loss:3.3871 train_time:126727ms step_avg:168.74ms
step:762/1530 train_loss:3.5466 train_time:126900ms step_avg:168.75ms
step:763/1530 train_loss:3.6581 train_time:127073ms step_avg:168.76ms
step:764/1530 train_loss:3.3059 train_time:127245ms step_avg:168.76ms
step:765/1530 train_loss:3.7212 train_time:127419ms step_avg:168.77ms
step:766/1530 train_loss:3.5599 train_time:127590ms step_avg:168.77ms
step:767/1530 train_loss:3.5551 train_time:127762ms step_avg:168.77ms
step:768/1530 train_loss:3.5649 train_time:127937ms step_avg:168.78ms
step:769/1530 train_loss:3.5776 train_time:128111ms step_avg:168.79ms
step:770/1530 train_loss:3.6370 train_time:128282ms step_avg:168.79ms
step:771/1530 train_loss:3.8671 train_time:128456ms step_avg:168.80ms
step:772/1530 train_loss:3.4397 train_time:128627ms step_avg:168.80ms
step:773/1530 train_loss:3.6157 train_time:128800ms step_avg:168.81ms
step:774/1530 train_loss:3.6321 train_time:128972ms step_avg:168.81ms
step:775/1530 train_loss:3.5964 train_time:129144ms step_avg:168.82ms
step:776/1530 train_loss:3.3889 train_time:129320ms step_avg:168.82ms
step:777/1530 train_loss:3.3771 train_time:129495ms step_avg:168.83ms
step:778/1530 train_loss:3.4856 train_time:129666ms step_avg:168.84ms
step:779/1530 train_loss:3.5700 train_time:129841ms step_avg:168.84ms
step:780/1530 train_loss:3.5801 train_time:130015ms step_avg:168.85ms
step:781/1530 train_loss:3.6624 train_time:130185ms step_avg:168.85ms
step:782/1530 train_loss:3.5795 train_time:130359ms step_avg:168.86ms
step:783/1530 train_loss:3.5625 train_time:130529ms step_avg:168.86ms
step:784/1530 train_loss:3.6002 train_time:130703ms step_avg:168.87ms
step:785/1530 train_loss:3.5512 train_time:130876ms step_avg:168.87ms
step:786/1530 train_loss:3.4268 train_time:131047ms step_avg:168.87ms
step:787/1530 train_loss:3.7143 train_time:131219ms step_avg:168.88ms
step:788/1530 train_loss:3.4852 train_time:131393ms step_avg:168.89ms
step:789/1530 train_loss:3.5357 train_time:131563ms step_avg:168.89ms
step:790/1530 train_loss:3.6190 train_time:131737ms step_avg:168.89ms
step:791/1530 train_loss:3.7632 train_time:131912ms step_avg:168.90ms
step:792/1530 train_loss:3.7511 train_time:132084ms step_avg:168.91ms
step:793/1530 train_loss:3.4477 train_time:132256ms step_avg:168.91ms
step:794/1530 train_loss:3.5832 train_time:132429ms step_avg:168.91ms
step:795/1530 train_loss:3.6631 train_time:132604ms step_avg:168.92ms
step:796/1530 train_loss:3.7200 train_time:132781ms step_avg:168.93ms
step:797/1530 train_loss:3.5147 train_time:132955ms step_avg:168.94ms
step:798/1530 train_loss:3.6357 train_time:133130ms step_avg:168.95ms
step:799/1530 train_loss:3.5199 train_time:133307ms step_avg:168.96ms
step:800/1530 train_loss:3.5195 train_time:133480ms step_avg:168.96ms
step:801/1530 train_loss:3.6205 train_time:133655ms step_avg:168.97ms
step:802/1530 train_loss:3.4875 train_time:133831ms step_avg:168.98ms
step:803/1530 train_loss:3.4831 train_time:134004ms step_avg:168.98ms
step:804/1530 train_loss:3.6108 train_time:134178ms step_avg:168.99ms
step:805/1530 train_loss:3.5062 train_time:134353ms step_avg:169.00ms
step:806/1530 train_loss:3.5555 train_time:134525ms step_avg:169.00ms
step:807/1530 train_loss:3.6358 train_time:134700ms step_avg:169.01ms
step:808/1530 train_loss:3.5355 train_time:134875ms step_avg:169.02ms
step:809/1530 train_loss:3.4869 train_time:135048ms step_avg:169.02ms
step:810/1530 train_loss:3.5515 train_time:135223ms step_avg:169.03ms
step:811/1530 train_loss:3.5704 train_time:135397ms step_avg:169.04ms
step:812/1530 train_loss:3.5938 train_time:135569ms step_avg:169.04ms
step:813/1530 train_loss:3.6157 train_time:135742ms step_avg:169.04ms
step:814/1530 train_loss:3.5565 train_time:135918ms step_avg:169.05ms
step:815/1530 train_loss:3.5576 train_time:136090ms step_avg:169.06ms
step:816/1530 train_loss:3.6726 train_time:136265ms step_avg:169.06ms
step:817/1530 train_loss:3.7571 train_time:136440ms step_avg:169.07ms
step:818/1530 train_loss:3.5147 train_time:136612ms step_avg:169.07ms
step:819/1530 train_loss:3.7138 train_time:136787ms step_avg:169.08ms
step:820/1530 train_loss:3.4869 train_time:136963ms step_avg:169.09ms
step:821/1530 train_loss:3.5534 train_time:137135ms step_avg:169.09ms
step:822/1530 train_loss:3.6910 train_time:137310ms step_avg:169.10ms
step:823/1530 train_loss:3.5645 train_time:137484ms step_avg:169.11ms
step:824/1530 train_loss:3.5087 train_time:137658ms step_avg:169.11ms
step:825/1530 train_loss:3.6121 train_time:137832ms step_avg:169.12ms
step:826/1530 train_loss:3.4708 train_time:138008ms step_avg:169.13ms
step:827/1530 train_loss:3.7279 train_time:138182ms step_avg:169.13ms
step:828/1530 train_loss:3.6113 train_time:138357ms step_avg:169.14ms
step:829/1530 train_loss:3.6148 train_time:138532ms step_avg:169.15ms
step:830/1530 train_loss:3.5277 train_time:138707ms step_avg:169.16ms
step:831/1530 train_loss:3.5897 train_time:138882ms step_avg:169.16ms
step:832/1530 train_loss:3.5083 train_time:139058ms step_avg:169.17ms
step:833/1530 train_loss:3.6424 train_time:139234ms step_avg:169.18ms
step:834/1530 train_loss:3.4596 train_time:139408ms step_avg:169.18ms
step:835/1530 train_loss:3.4479 train_time:139582ms step_avg:169.19ms
step:836/1530 train_loss:3.7037 train_time:139758ms step_avg:169.20ms
step:837/1530 train_loss:3.3915 train_time:139931ms step_avg:169.20ms
step:838/1530 train_loss:3.5882 train_time:140105ms step_avg:169.21ms
step:839/1530 train_loss:3.4129 train_time:140280ms step_avg:169.22ms
step:840/1530 train_loss:3.4585 train_time:140453ms step_avg:169.22ms
step:841/1530 train_loss:3.5664 train_time:140626ms step_avg:169.22ms
step:842/1530 train_loss:3.5769 train_time:140803ms step_avg:169.23ms
step:843/1530 train_loss:3.5527 train_time:140975ms step_avg:169.24ms
step:844/1530 train_loss:3.4210 train_time:141147ms step_avg:169.24ms
step:845/1530 train_loss:3.6546 train_time:141321ms step_avg:169.25ms
step:846/1530 train_loss:3.5105 train_time:141497ms step_avg:169.25ms
step:847/1530 train_loss:3.4878 train_time:141671ms step_avg:169.26ms
step:848/1530 train_loss:3.6315 train_time:141845ms step_avg:169.27ms
step:849/1530 train_loss:3.4838 train_time:142020ms step_avg:169.27ms
step:850/1530 train_loss:3.4382 train_time:142194ms step_avg:169.28ms
step:851/1530 train_loss:3.7264 train_time:142366ms step_avg:169.28ms
step:852/1530 train_loss:3.4289 train_time:142542ms step_avg:169.29ms
step:853/1530 train_loss:3.5574 train_time:142713ms step_avg:169.29ms
step:854/1530 train_loss:3.6442 train_time:142889ms step_avg:169.30ms
step:855/1530 train_loss:3.5043 train_time:143063ms step_avg:169.31ms
step:856/1530 train_loss:3.5342 train_time:143239ms step_avg:169.31ms
step:857/1530 train_loss:3.5974 train_time:143412ms step_avg:169.32ms
step:858/1530 train_loss:3.4572 train_time:143587ms step_avg:169.32ms
step:859/1530 train_loss:3.5530 train_time:143761ms step_avg:169.33ms
step:860/1530 train_loss:3.5761 train_time:143933ms step_avg:169.33ms
step:861/1530 train_loss:3.6241 train_time:144110ms step_avg:169.34ms
step:862/1530 train_loss:3.5921 train_time:144288ms step_avg:169.35ms
step:863/1530 train_loss:3.5633 train_time:144463ms step_avg:169.36ms
step:864/1530 train_loss:3.3716 train_time:144637ms step_avg:169.36ms
step:865/1530 train_loss:3.5925 train_time:144810ms step_avg:169.37ms
step:866/1530 train_loss:3.8668 train_time:144987ms step_avg:169.38ms
step:867/1530 train_loss:3.4533 train_time:145160ms step_avg:169.38ms
step:868/1530 train_loss:3.6379 train_time:145332ms step_avg:169.38ms
step:869/1530 train_loss:3.6054 train_time:145505ms step_avg:169.39ms
step:870/1530 train_loss:3.4414 train_time:145681ms step_avg:169.40ms
step:871/1530 train_loss:3.3784 train_time:145856ms step_avg:169.40ms
step:872/1530 train_loss:3.6392 train_time:146029ms step_avg:169.41ms
step:873/1530 train_loss:3.4557 train_time:146203ms step_avg:169.41ms
step:874/1530 train_loss:3.2177 train_time:146382ms step_avg:169.42ms
step:875/1530 train_loss:3.6183 train_time:146555ms step_avg:169.43ms
step:875/1530 val_loss:3.5093 train_time:146604ms step_avg:169.48ms
step:876/1530 train_loss:3.4244 train_time:146728ms step_avg:169.43ms
step:877/1530 train_loss:3.6083 train_time:146904ms step_avg:169.44ms
step:878/1530 train_loss:3.4625 train_time:147079ms step_avg:169.45ms
step:879/1530 train_loss:3.6404 train_time:147252ms step_avg:169.45ms
step:880/1530 train_loss:3.2991 train_time:147424ms step_avg:169.45ms
step:881/1530 train_loss:3.4715 train_time:147596ms step_avg:169.46ms
step:882/1530 train_loss:3.6866 train_time:147770ms step_avg:169.46ms
step:883/1530 train_loss:3.8282 train_time:147941ms step_avg:169.46ms
step:884/1530 train_loss:3.5546 train_time:148118ms step_avg:169.47ms
step:885/1530 train_loss:3.4822 train_time:148290ms step_avg:169.47ms
step:886/1530 train_loss:3.5666 train_time:148463ms step_avg:169.48ms
step:887/1530 train_loss:4.0794 train_time:148639ms step_avg:169.49ms
step:888/1530 train_loss:3.8231 train_time:148820ms step_avg:169.50ms
step:889/1530 train_loss:3.5123 train_time:148993ms step_avg:169.50ms
step:890/1530 train_loss:3.5287 train_time:149165ms step_avg:169.51ms
step:891/1530 train_loss:3.3514 train_time:149340ms step_avg:169.51ms
step:892/1530 train_loss:3.7046 train_time:149514ms step_avg:169.52ms
step:893/1530 train_loss:3.4109 train_time:149685ms step_avg:169.52ms
step:894/1530 train_loss:3.6193 train_time:149864ms step_avg:169.53ms
step:895/1530 train_loss:3.6680 train_time:150039ms step_avg:169.54ms
step:896/1530 train_loss:3.4871 train_time:150213ms step_avg:169.54ms
step:897/1530 train_loss:3.5321 train_time:150387ms step_avg:169.55ms
step:898/1530 train_loss:3.5839 train_time:150563ms step_avg:169.55ms
step:899/1530 train_loss:3.4692 train_time:150736ms step_avg:169.56ms
step:900/1530 train_loss:3.4164 train_time:150909ms step_avg:169.56ms
step:901/1530 train_loss:3.6095 train_time:151081ms step_avg:169.56ms
step:902/1530 train_loss:3.6256 train_time:151255ms step_avg:169.57ms
step:903/1530 train_loss:3.5299 train_time:151431ms step_avg:169.58ms
step:904/1530 train_loss:3.4875 train_time:151604ms step_avg:169.58ms
step:905/1530 train_loss:3.4950 train_time:151775ms step_avg:169.58ms
step:906/1530 train_loss:3.6907 train_time:151950ms step_avg:169.59ms
step:907/1530 train_loss:3.5008 train_time:152124ms step_avg:169.59ms
step:908/1530 train_loss:3.5632 train_time:152297ms step_avg:169.60ms
step:909/1530 train_loss:3.4472 train_time:152474ms step_avg:169.60ms
step:910/1530 train_loss:3.5167 train_time:152653ms step_avg:169.61ms
step:911/1530 train_loss:3.6383 train_time:152829ms step_avg:169.62ms
step:912/1530 train_loss:3.5825 train_time:153006ms step_avg:169.63ms
step:913/1530 train_loss:3.4490 train_time:153182ms step_avg:169.64ms
step:914/1530 train_loss:3.7332 train_time:153361ms step_avg:169.65ms
step:915/1530 train_loss:3.5331 train_time:153540ms step_avg:169.66ms
step:916/1530 train_loss:3.6088 train_time:153718ms step_avg:169.67ms
step:917/1530 train_loss:3.5909 train_time:153892ms step_avg:169.67ms
step:918/1530 train_loss:4.8136 train_time:154072ms step_avg:169.68ms
step:919/1530 train_loss:3.4819 train_time:154250ms step_avg:169.69ms
step:920/1530 train_loss:3.5768 train_time:154425ms step_avg:169.70ms
step:921/1530 train_loss:3.5406 train_time:154602ms step_avg:169.71ms
step:922/1530 train_loss:3.5710 train_time:154780ms step_avg:169.71ms
step:923/1530 train_loss:3.6066 train_time:154956ms step_avg:169.72ms
step:924/1530 train_loss:3.6735 train_time:155132ms step_avg:169.73ms
step:925/1530 train_loss:3.6373 train_time:155304ms step_avg:169.73ms
step:926/1530 train_loss:3.5428 train_time:155477ms step_avg:169.73ms
step:927/1530 train_loss:3.5447 train_time:155653ms step_avg:169.74ms
step:928/1530 train_loss:3.7763 train_time:155830ms step_avg:169.75ms
step:929/1530 train_loss:3.6002 train_time:156004ms step_avg:169.75ms
step:930/1530 train_loss:3.3978 train_time:156180ms step_avg:169.76ms
step:931/1530 train_loss:3.4884 train_time:156354ms step_avg:169.77ms
step:932/1530 train_loss:3.6376 train_time:156530ms step_avg:169.77ms
step:933/1530 train_loss:3.3608 train_time:156705ms step_avg:169.78ms
step:934/1530 train_loss:3.5781 train_time:156883ms step_avg:169.79ms
step:935/1530 train_loss:3.4309 train_time:157061ms step_avg:169.80ms
step:936/1530 train_loss:3.5159 train_time:157239ms step_avg:169.80ms
step:937/1530 train_loss:3.6149 train_time:157417ms step_avg:169.81ms
step:938/1530 train_loss:3.5297 train_time:157590ms step_avg:169.82ms
step:939/1530 train_loss:3.6633 train_time:157769ms step_avg:169.83ms
step:940/1530 train_loss:3.4753 train_time:157943ms step_avg:169.83ms
step:941/1530 train_loss:3.5357 train_time:158119ms step_avg:169.84ms
step:942/1530 train_loss:3.3522 train_time:158294ms step_avg:169.84ms
step:943/1530 train_loss:3.7054 train_time:158473ms step_avg:169.85ms
step:944/1530 train_loss:3.3958 train_time:158787ms step_avg:170.01ms
step:945/1530 train_loss:3.4140 train_time:158970ms step_avg:170.02ms
step:946/1530 train_loss:5.0673 train_time:159147ms step_avg:170.03ms
step:947/1530 train_loss:3.5882 train_time:159323ms step_avg:170.04ms
step:948/1530 train_loss:3.4756 train_time:159498ms step_avg:170.04ms
step:949/1530 train_loss:3.3648 train_time:159823ms step_avg:170.21ms
step:950/1530 train_loss:3.4385 train_time:159997ms step_avg:170.21ms
step:951/1530 train_loss:3.4005 train_time:160174ms step_avg:170.22ms
step:952/1530 train_loss:3.4748 train_time:160350ms step_avg:170.22ms
step:953/1530 train_loss:3.5611 train_time:160529ms step_avg:170.23ms
step:954/1530 train_loss:3.4405 train_time:160708ms step_avg:170.24ms
step:955/1530 train_loss:3.4690 train_time:160882ms step_avg:170.25ms
step:956/1530 train_loss:3.4392 train_time:161059ms step_avg:170.25ms
step:957/1530 train_loss:3.4845 train_time:161239ms step_avg:170.26ms
step:958/1530 train_loss:3.4970 train_time:161419ms step_avg:170.27ms
step:959/1530 train_loss:3.5003 train_time:161596ms step_avg:170.28ms
step:960/1530 train_loss:3.4019 train_time:161774ms step_avg:170.29ms
step:961/1530 train_loss:3.6382 train_time:161949ms step_avg:170.29ms
step:962/1530 train_loss:3.5826 train_time:162124ms step_avg:170.30ms
step:963/1530 train_loss:3.6986 train_time:162301ms step_avg:170.31ms
step:964/1530 train_loss:3.4254 train_time:162478ms step_avg:170.31ms
step:965/1530 train_loss:3.4704 train_time:162651ms step_avg:170.32ms
step:966/1530 train_loss:3.7066 train_time:162826ms step_avg:170.32ms
step:967/1530 train_loss:3.5135 train_time:163000ms step_avg:170.32ms
step:968/1530 train_loss:3.5091 train_time:163176ms step_avg:170.33ms
step:969/1530 train_loss:3.5782 train_time:163352ms step_avg:170.34ms
step:970/1530 train_loss:3.3674 train_time:163524ms step_avg:170.34ms
step:971/1530 train_loss:3.5263 train_time:163699ms step_avg:170.34ms
step:972/1530 train_loss:3.4780 train_time:163872ms step_avg:170.35ms
step:973/1530 train_loss:3.5350 train_time:164046ms step_avg:170.35ms
step:974/1530 train_loss:3.5791 train_time:164223ms step_avg:170.36ms
step:975/1530 train_loss:3.4585 train_time:164399ms step_avg:170.36ms
step:976/1530 train_loss:3.6616 train_time:164574ms step_avg:170.37ms
step:977/1530 train_loss:3.5633 train_time:164747ms step_avg:170.37ms
step:978/1530 train_loss:3.3474 train_time:164922ms step_avg:170.37ms
step:979/1530 train_loss:3.6110 train_time:165098ms step_avg:170.38ms
step:980/1530 train_loss:3.4088 train_time:165276ms step_avg:170.39ms
step:981/1530 train_loss:3.5659 train_time:165453ms step_avg:170.39ms
step:982/1530 train_loss:3.5318 train_time:165627ms step_avg:170.40ms
step:983/1530 train_loss:3.5091 train_time:165802ms step_avg:170.40ms
step:984/1530 train_loss:3.4867 train_time:165976ms step_avg:170.41ms
step:985/1530 train_loss:3.5625 train_time:166154ms step_avg:170.41ms
step:986/1530 train_loss:3.4079 train_time:166330ms step_avg:170.42ms
step:987/1530 train_loss:3.4784 train_time:166503ms step_avg:170.42ms
step:988/1530 train_loss:3.4635 train_time:166677ms step_avg:170.43ms
step:989/1530 train_loss:3.4106 train_time:166851ms step_avg:170.43ms
step:990/1530 train_loss:3.6563 train_time:167028ms step_avg:170.44ms
step:991/1530 train_loss:3.4638 train_time:167203ms step_avg:170.44ms
step:992/1530 train_loss:3.4362 train_time:167383ms step_avg:170.45ms
step:993/1530 train_loss:3.4877 train_time:167562ms step_avg:170.46ms
step:994/1530 train_loss:3.5887 train_time:167738ms step_avg:170.47ms
step:995/1530 train_loss:3.5241 train_time:167910ms step_avg:170.47ms
step:996/1530 train_loss:3.4497 train_time:168083ms step_avg:170.47ms
step:997/1530 train_loss:3.7452 train_time:168258ms step_avg:170.47ms
step:998/1530 train_loss:3.4272 train_time:168431ms step_avg:170.48ms
step:999/1530 train_loss:3.5764 train_time:168603ms step_avg:170.48ms
step:1000/1530 train_loss:3.4314 train_time:168779ms step_avg:170.48ms
step:1000/1530 val_loss:3.4574 train_time:168832ms step_avg:170.54ms
step:1001/1530 train_loss:3.4924 train_time:168955ms step_avg:170.49ms
step:1002/1530 train_loss:3.3693 train_time:169130ms step_avg:170.49ms
step:1003/1530 train_loss:3.5521 train_time:169308ms step_avg:170.50ms
step:1004/1530 train_loss:3.5906 train_time:169484ms step_avg:170.51ms
step:1005/1530 train_loss:3.3799 train_time:169658ms step_avg:170.51ms
step:1006/1530 train_loss:3.4583 train_time:169834ms step_avg:170.52ms
step:1007/1530 train_loss:3.4279 train_time:170009ms step_avg:170.52ms
step:1008/1530 train_loss:3.5533 train_time:170185ms step_avg:170.53ms
step:1009/1530 train_loss:3.6562 train_time:170364ms step_avg:170.53ms
step:1010/1530 train_loss:3.5572 train_time:170537ms step_avg:170.54ms
step:1011/1530 train_loss:3.5252 train_time:170710ms step_avg:170.54ms
step:1012/1530 train_loss:3.3839 train_time:170884ms step_avg:170.54ms
step:1013/1530 train_loss:3.5276 train_time:171059ms step_avg:170.55ms
step:1014/1530 train_loss:3.6119 train_time:171236ms step_avg:170.55ms
step:1015/1530 train_loss:3.3238 train_time:171414ms step_avg:170.56ms
step:1016/1530 train_loss:3.3972 train_time:171587ms step_avg:170.56ms
step:1017/1530 train_loss:3.3860 train_time:171763ms step_avg:170.57ms
step:1018/1530 train_loss:3.3872 train_time:171939ms step_avg:170.57ms
step:1019/1530 train_loss:3.5114 train_time:172115ms step_avg:170.58ms
step:1020/1530 train_loss:3.3683 train_time:172291ms step_avg:170.59ms
step:1021/1530 train_loss:3.3496 train_time:172467ms step_avg:170.59ms
step:1022/1530 train_loss:3.4754 train_time:172645ms step_avg:170.60ms
step:1023/1530 train_loss:3.4957 train_time:172822ms step_avg:170.60ms
step:1024/1530 train_loss:3.4682 train_time:173001ms step_avg:170.61ms
step:1025/1530 train_loss:3.4731 train_time:173179ms step_avg:170.62ms
step:1026/1530 train_loss:3.6087 train_time:173355ms step_avg:170.63ms
step:1027/1530 train_loss:3.3096 train_time:173530ms step_avg:170.63ms
step:1028/1530 train_loss:3.3914 train_time:173710ms step_avg:170.64ms
step:1029/1530 train_loss:3.3054 train_time:173892ms step_avg:170.65ms
step:1030/1530 train_loss:3.5345 train_time:174068ms step_avg:170.65ms
step:1031/1530 train_loss:3.5035 train_time:174246ms step_avg:170.66ms
step:1032/1530 train_loss:3.6891 train_time:174428ms step_avg:170.67ms
step:1033/1530 train_loss:3.4815 train_time:174605ms step_avg:170.68ms
step:1034/1530 train_loss:3.3883 train_time:174781ms step_avg:170.68ms
step:1035/1530 train_loss:3.4352 train_time:174959ms step_avg:170.69ms
step:1036/1530 train_loss:3.4701 train_time:175135ms step_avg:170.70ms
step:1037/1530 train_loss:3.7849 train_time:175311ms step_avg:170.70ms
step:1038/1530 train_loss:3.6088 train_time:175491ms step_avg:170.71ms
step:1039/1530 train_loss:3.4998 train_time:175671ms step_avg:170.72ms
step:1040/1530 train_loss:3.4035 train_time:175847ms step_avg:170.73ms
step:1041/1530 train_loss:3.4828 train_time:176025ms step_avg:170.73ms
step:1042/1530 train_loss:3.5151 train_time:176200ms step_avg:170.74ms
step:1043/1530 train_loss:3.4361 train_time:176374ms step_avg:170.74ms
step:1044/1530 train_loss:3.4516 train_time:176552ms step_avg:170.75ms
step:1045/1530 train_loss:3.5073 train_time:176730ms step_avg:170.75ms
step:1046/1530 train_loss:3.4167 train_time:176907ms step_avg:170.76ms
step:1047/1530 train_loss:3.6219 train_time:177083ms step_avg:170.76ms
step:1048/1530 train_loss:3.4870 train_time:177259ms step_avg:170.77ms
step:1049/1530 train_loss:3.3914 train_time:177433ms step_avg:170.77ms
step:1050/1530 train_loss:3.3860 train_time:177611ms step_avg:170.78ms
step:1051/1530 train_loss:3.4881 train_time:177789ms step_avg:170.79ms
step:1052/1530 train_loss:3.3538 train_time:177966ms step_avg:170.79ms
step:1053/1530 train_loss:3.6812 train_time:178142ms step_avg:170.80ms
step:1054/1530 train_loss:3.5294 train_time:178322ms step_avg:170.81ms
step:1055/1530 train_loss:3.3761 train_time:178497ms step_avg:170.81ms
step:1056/1530 train_loss:3.4911 train_time:178672ms step_avg:170.81ms
step:1057/1530 train_loss:3.5633 train_time:178850ms step_avg:170.82ms
step:1058/1530 train_loss:3.2941 train_time:179027ms step_avg:170.83ms
step:1059/1530 train_loss:3.3596 train_time:179209ms step_avg:170.84ms
step:1060/1530 train_loss:3.4312 train_time:179384ms step_avg:170.84ms
step:1061/1530 train_loss:3.4093 train_time:179558ms step_avg:170.84ms
step:1062/1530 train_loss:3.3764 train_time:179732ms step_avg:170.85ms
step:1063/1530 train_loss:3.4480 train_time:179908ms step_avg:170.85ms
step:1064/1530 train_loss:3.3708 train_time:180082ms step_avg:170.86ms
step:1065/1530 train_loss:3.3539 train_time:180261ms step_avg:170.86ms
step:1066/1530 train_loss:3.4039 train_time:180437ms step_avg:170.87ms
step:1067/1530 train_loss:3.2751 train_time:180616ms step_avg:170.88ms
step:1068/1530 train_loss:3.4298 train_time:180793ms step_avg:170.88ms
step:1069/1530 train_loss:3.2923 train_time:180973ms step_avg:170.89ms
step:1070/1530 train_loss:3.5565 train_time:181148ms step_avg:170.89ms
step:1071/1530 train_loss:3.5048 train_time:181327ms step_avg:170.90ms
step:1072/1530 train_loss:3.4322 train_time:181502ms step_avg:170.91ms
step:1073/1530 train_loss:3.5185 train_time:181676ms step_avg:170.91ms
step:1074/1530 train_loss:3.4205 train_time:181852ms step_avg:170.91ms
step:1075/1530 train_loss:3.3955 train_time:182029ms step_avg:170.92ms
step:1076/1530 train_loss:3.7934 train_time:182206ms step_avg:170.93ms
step:1077/1530 train_loss:3.4168 train_time:182381ms step_avg:170.93ms
step:1078/1530 train_loss:3.0693 train_time:182565ms step_avg:170.94ms
step:1079/1530 train_loss:3.5266 train_time:182741ms step_avg:170.95ms
step:1080/1530 train_loss:3.4171 train_time:182920ms step_avg:170.95ms
step:1081/1530 train_loss:3.4938 train_time:183093ms step_avg:170.96ms
step:1082/1530 train_loss:3.5822 train_time:183269ms step_avg:170.96ms
step:1083/1530 train_loss:3.4919 train_time:183444ms step_avg:170.96ms
step:1084/1530 train_loss:3.4575 train_time:183622ms step_avg:170.97ms
step:1085/1530 train_loss:3.4264 train_time:183797ms step_avg:170.97ms
step:1086/1530 train_loss:3.6170 train_time:183974ms step_avg:170.98ms
step:1087/1530 train_loss:3.4930 train_time:184147ms step_avg:170.98ms
step:1088/1530 train_loss:3.3644 train_time:184327ms step_avg:170.99ms
step:1089/1530 train_loss:3.3659 train_time:184507ms step_avg:171.00ms
step:1090/1530 train_loss:3.4732 train_time:184686ms step_avg:171.01ms
step:1091/1530 train_loss:3.2779 train_time:184862ms step_avg:171.01ms
step:1092/1530 train_loss:3.4800 train_time:185039ms step_avg:171.02ms
step:1093/1530 train_loss:3.5919 train_time:185217ms step_avg:171.02ms
step:1094/1530 train_loss:3.4384 train_time:185392ms step_avg:171.03ms
step:1095/1530 train_loss:3.4114 train_time:185567ms step_avg:171.03ms
step:1096/1530 train_loss:3.4180 train_time:185745ms step_avg:171.04ms
step:1097/1530 train_loss:3.4779 train_time:185923ms step_avg:171.04ms
step:1098/1530 train_loss:3.5587 train_time:186101ms step_avg:171.05ms
step:1099/1530 train_loss:3.5181 train_time:186278ms step_avg:171.05ms
step:1100/1530 train_loss:3.4199 train_time:186456ms step_avg:171.06ms
step:1101/1530 train_loss:3.2792 train_time:186634ms step_avg:171.07ms
step:1102/1530 train_loss:3.3024 train_time:186812ms step_avg:171.07ms
step:1103/1530 train_loss:3.4335 train_time:186995ms step_avg:171.08ms
step:1104/1530 train_loss:3.3134 train_time:187172ms step_avg:171.09ms
step:1105/1530 train_loss:4.0461 train_time:187351ms step_avg:171.10ms
step:1106/1530 train_loss:3.2161 train_time:187526ms step_avg:171.10ms
step:1107/1530 train_loss:3.5615 train_time:187702ms step_avg:171.10ms
step:1108/1530 train_loss:3.3356 train_time:187875ms step_avg:171.11ms
step:1109/1530 train_loss:3.4934 train_time:188050ms step_avg:171.11ms
step:1110/1530 train_loss:3.4180 train_time:188224ms step_avg:171.11ms
step:1111/1530 train_loss:3.4749 train_time:188400ms step_avg:171.12ms
step:1112/1530 train_loss:3.5498 train_time:188580ms step_avg:171.12ms
step:1113/1530 train_loss:3.4225 train_time:188762ms step_avg:171.14ms
step:1114/1530 train_loss:3.3561 train_time:188942ms step_avg:171.14ms
step:1115/1530 train_loss:3.2310 train_time:189121ms step_avg:171.15ms
step:1116/1530 train_loss:3.4213 train_time:189295ms step_avg:171.15ms
step:1117/1530 train_loss:3.5792 train_time:189474ms step_avg:171.16ms
step:1118/1530 train_loss:3.6224 train_time:189653ms step_avg:171.17ms
step:1119/1530 train_loss:3.4698 train_time:189826ms step_avg:171.17ms
step:1120/1530 train_loss:3.4827 train_time:190004ms step_avg:171.17ms
step:1121/1530 train_loss:3.3801 train_time:190181ms step_avg:171.18ms
step:1122/1530 train_loss:3.4526 train_time:190357ms step_avg:171.18ms
step:1123/1530 train_loss:3.5739 train_time:190534ms step_avg:171.19ms
step:1124/1530 train_loss:3.3300 train_time:190709ms step_avg:171.19ms
step:1125/1530 train_loss:3.2188 train_time:190886ms step_avg:171.20ms
step:1125/1530 val_loss:3.4003 train_time:190936ms step_avg:171.24ms
step:1126/1530 train_loss:3.4644 train_time:191062ms step_avg:171.20ms
step:1127/1530 train_loss:3.6611 train_time:191239ms step_avg:171.21ms
step:1128/1530 train_loss:3.2248 train_time:191417ms step_avg:171.21ms
step:1129/1530 train_loss:3.5487 train_time:191596ms step_avg:171.22ms
step:1130/1530 train_loss:3.3720 train_time:191776ms step_avg:171.23ms
step:1131/1530 train_loss:3.3940 train_time:191959ms step_avg:171.24ms
step:1132/1530 train_loss:3.3578 train_time:192132ms step_avg:171.24ms
step:1133/1530 train_loss:3.4790 train_time:192445ms step_avg:171.37ms
step:1134/1530 train_loss:3.4407 train_time:192631ms step_avg:171.38ms
step:1135/1530 train_loss:3.5106 train_time:192808ms step_avg:171.39ms
step:1136/1530 train_loss:3.5575 train_time:192986ms step_avg:171.39ms
step:1137/1530 train_loss:3.4477 train_time:193162ms step_avg:171.39ms
step:1138/1530 train_loss:3.3480 train_time:193341ms step_avg:171.40ms
step:1139/1530 train_loss:3.6465 train_time:193673ms step_avg:171.54ms
step:1140/1530 train_loss:3.4471 train_time:193849ms step_avg:171.55ms
step:1141/1530 train_loss:3.5867 train_time:194032ms step_avg:171.56ms
step:1142/1530 train_loss:3.4360 train_time:194211ms step_avg:171.56ms
step:1143/1530 train_loss:3.3554 train_time:194391ms step_avg:171.57ms
step:1144/1530 train_loss:3.4361 train_time:194568ms step_avg:171.58ms
step:1145/1530 train_loss:3.5803 train_time:194742ms step_avg:171.58ms
step:1146/1530 train_loss:3.5479 train_time:194922ms step_avg:171.59ms
step:1147/1530 train_loss:3.4800 train_time:195101ms step_avg:171.59ms
step:1148/1530 train_loss:3.4914 train_time:195280ms step_avg:171.60ms
step:1149/1530 train_loss:3.3183 train_time:195460ms step_avg:171.61ms
step:1150/1530 train_loss:3.3682 train_time:195637ms step_avg:171.61ms
step:1151/1530 train_loss:3.3142 train_time:195816ms step_avg:171.62ms
step:1152/1530 train_loss:3.3834 train_time:195999ms step_avg:171.63ms
step:1153/1530 train_loss:3.4241 train_time:196179ms step_avg:171.64ms
step:1154/1530 train_loss:3.5086 train_time:196355ms step_avg:171.64ms
step:1155/1530 train_loss:3.3148 train_time:196539ms step_avg:171.65ms
step:1156/1530 train_loss:3.5339 train_time:196724ms step_avg:171.66ms
step:1157/1530 train_loss:3.4861 train_time:196902ms step_avg:171.67ms
step:1158/1530 train_loss:3.2416 train_time:197077ms step_avg:171.67ms
step:1159/1530 train_loss:3.3383 train_time:197254ms step_avg:171.67ms
step:1160/1530 train_loss:3.3289 train_time:197429ms step_avg:171.68ms
step:1161/1530 train_loss:3.0627 train_time:197610ms step_avg:171.69ms
step:1162/1530 train_loss:3.4113 train_time:197788ms step_avg:171.69ms
step:1163/1530 train_loss:3.3774 train_time:197966ms step_avg:171.70ms
step:1164/1530 train_loss:3.2830 train_time:198144ms step_avg:171.70ms
step:1165/1530 train_loss:3.2374 train_time:198319ms step_avg:171.70ms
step:1166/1530 train_loss:3.3784 train_time:198498ms step_avg:171.71ms
step:1167/1530 train_loss:3.4067 train_time:198673ms step_avg:171.71ms
step:1168/1530 train_loss:3.7178 train_time:198849ms step_avg:171.72ms
step:1169/1530 train_loss:3.3685 train_time:199026ms step_avg:171.72ms
step:1170/1530 train_loss:3.3821 train_time:199202ms step_avg:171.73ms
step:1171/1530 train_loss:3.3231 train_time:199377ms step_avg:171.73ms
step:1172/1530 train_loss:3.4174 train_time:199553ms step_avg:171.73ms
step:1173/1530 train_loss:3.5258 train_time:199734ms step_avg:171.74ms
step:1174/1530 train_loss:3.3740 train_time:199918ms step_avg:171.75ms
step:1175/1530 train_loss:3.3575 train_time:200096ms step_avg:171.76ms
step:1176/1530 train_loss:3.4146 train_time:200276ms step_avg:171.76ms
step:1177/1530 train_loss:3.4445 train_time:200460ms step_avg:171.77ms
step:1178/1530 train_loss:3.4889 train_time:200635ms step_avg:171.78ms
step:1179/1530 train_loss:3.3951 train_time:200813ms step_avg:171.78ms
step:1180/1530 train_loss:3.3514 train_time:201000ms step_avg:171.79ms
step:1181/1530 train_loss:3.3284 train_time:201178ms step_avg:171.80ms
step:1182/1530 train_loss:3.3635 train_time:201357ms step_avg:171.81ms
step:1183/1530 train_loss:3.3267 train_time:201534ms step_avg:171.81ms
step:1184/1530 train_loss:3.5018 train_time:201714ms step_avg:171.82ms
step:1185/1530 train_loss:3.5341 train_time:201895ms step_avg:171.83ms
step:1186/1530 train_loss:3.3562 train_time:202073ms step_avg:171.83ms
step:1187/1530 train_loss:3.4074 train_time:202259ms step_avg:171.84ms
step:1188/1530 train_loss:3.4351 train_time:202435ms step_avg:171.85ms
step:1189/1530 train_loss:3.2676 train_time:202616ms step_avg:171.85ms
step:1190/1530 train_loss:3.4373 train_time:202794ms step_avg:171.86ms
step:1191/1530 train_loss:3.5747 train_time:202974ms step_avg:171.87ms
step:1192/1530 train_loss:3.3823 train_time:203150ms step_avg:171.87ms
step:1193/1530 train_loss:3.2658 train_time:203326ms step_avg:171.87ms
step:1194/1530 train_loss:3.5476 train_time:203504ms step_avg:171.88ms
step:1195/1530 train_loss:3.3645 train_time:203684ms step_avg:171.88ms
step:1196/1530 train_loss:3.3745 train_time:203869ms step_avg:171.90ms
step:1197/1530 train_loss:3.2848 train_time:204050ms step_avg:171.90ms
step:1198/1530 train_loss:3.2954 train_time:204236ms step_avg:171.92ms
step:1199/1530 train_loss:3.3383 train_time:204416ms step_avg:171.92ms
step:1200/1530 train_loss:3.4430 train_time:204593ms step_avg:171.93ms
step:1201/1530 train_loss:3.4718 train_time:204771ms step_avg:171.93ms
step:1202/1530 train_loss:3.6370 train_time:204961ms step_avg:171.95ms
step:1203/1530 train_loss:3.3961 train_time:205141ms step_avg:171.95ms
step:1204/1530 train_loss:3.3010 train_time:205320ms step_avg:171.96ms
step:1205/1530 train_loss:3.4315 train_time:205497ms step_avg:171.96ms
step:1206/1530 train_loss:3.4643 train_time:205674ms step_avg:171.97ms
step:1207/1530 train_loss:3.5082 train_time:205853ms step_avg:171.97ms
step:1208/1530 train_loss:3.3892 train_time:206028ms step_avg:171.98ms
step:1209/1530 train_loss:3.2361 train_time:206207ms step_avg:171.98ms
step:1210/1530 train_loss:3.2994 train_time:206386ms step_avg:171.99ms
step:1211/1530 train_loss:3.3908 train_time:206562ms step_avg:171.99ms
step:1212/1530 train_loss:3.3821 train_time:206739ms step_avg:172.00ms
step:1213/1530 train_loss:3.4023 train_time:206918ms step_avg:172.00ms
step:1214/1530 train_loss:3.2474 train_time:207100ms step_avg:172.01ms
step:1215/1530 train_loss:3.3846 train_time:207275ms step_avg:172.01ms
step:1216/1530 train_loss:3.3212 train_time:207456ms step_avg:172.02ms
step:1217/1530 train_loss:3.3137 train_time:207634ms step_avg:172.02ms
step:1218/1530 train_loss:3.3981 train_time:207813ms step_avg:172.03ms
step:1219/1530 train_loss:3.2486 train_time:207997ms step_avg:172.04ms
step:1220/1530 train_loss:3.4657 train_time:208171ms step_avg:172.04ms
step:1221/1530 train_loss:3.5010 train_time:208345ms step_avg:172.04ms
step:1222/1530 train_loss:3.4272 train_time:208521ms step_avg:172.05ms
step:1223/1530 train_loss:3.2867 train_time:208700ms step_avg:172.05ms
step:1224/1530 train_loss:3.2500 train_time:208882ms step_avg:172.06ms
step:1225/1530 train_loss:3.3588 train_time:209060ms step_avg:172.07ms
step:1226/1530 train_loss:3.3276 train_time:209239ms step_avg:172.07ms
step:1227/1530 train_loss:3.2663 train_time:209420ms step_avg:172.08ms
step:1228/1530 train_loss:3.4371 train_time:209597ms step_avg:172.08ms
step:1229/1530 train_loss:3.3642 train_time:209777ms step_avg:172.09ms
step:1230/1530 train_loss:3.3905 train_time:209961ms step_avg:172.10ms
step:1231/1530 train_loss:3.5754 train_time:210142ms step_avg:172.11ms
step:1232/1530 train_loss:3.4875 train_time:210323ms step_avg:172.11ms
step:1233/1530 train_loss:3.4222 train_time:210499ms step_avg:172.12ms
step:1234/1530 train_loss:3.5812 train_time:210678ms step_avg:172.12ms
step:1235/1530 train_loss:3.3179 train_time:210860ms step_avg:172.13ms
step:1236/1530 train_loss:3.2827 train_time:211036ms step_avg:172.13ms
step:1237/1530 train_loss:3.2685 train_time:211213ms step_avg:172.14ms
step:1238/1530 train_loss:3.2709 train_time:211397ms step_avg:172.15ms
step:1239/1530 train_loss:3.3260 train_time:211576ms step_avg:172.15ms
step:1240/1530 train_loss:3.3759 train_time:211753ms step_avg:172.16ms
step:1241/1530 train_loss:3.4205 train_time:211933ms step_avg:172.16ms
step:1242/1530 train_loss:3.2946 train_time:212111ms step_avg:172.17ms
step:1243/1530 train_loss:3.3983 train_time:212291ms step_avg:172.17ms
step:1244/1530 train_loss:3.3990 train_time:212463ms step_avg:172.17ms
step:1245/1530 train_loss:3.4033 train_time:212641ms step_avg:172.18ms
step:1246/1530 train_loss:3.2362 train_time:212821ms step_avg:172.19ms
step:1247/1530 train_loss:3.3642 train_time:212995ms step_avg:172.19ms
step:1248/1530 train_loss:3.4194 train_time:213172ms step_avg:172.19ms
step:1249/1530 train_loss:3.4145 train_time:213351ms step_avg:172.20ms
step:1250/1530 train_loss:3.3001 train_time:213529ms step_avg:172.20ms
step:1250/1530 val_loss:3.3480 train_time:213584ms step_avg:172.24ms
step:1251/1530 train_loss:3.4803 train_time:213716ms step_avg:172.21ms
step:1252/1530 train_loss:3.3562 train_time:213892ms step_avg:172.22ms
step:1253/1530 train_loss:3.3019 train_time:214068ms step_avg:172.22ms
step:1254/1530 train_loss:3.4100 train_time:214250ms step_avg:172.23ms
step:1255/1530 train_loss:3.5130 train_time:214441ms step_avg:172.24ms
step:1256/1530 train_loss:3.3012 train_time:214624ms step_avg:172.25ms
step:1257/1530 train_loss:3.3686 train_time:214802ms step_avg:172.25ms
step:1258/1530 train_loss:3.3614 train_time:214986ms step_avg:172.26ms
step:1259/1530 train_loss:3.3205 train_time:215163ms step_avg:172.27ms
step:1260/1530 train_loss:3.2038 train_time:215340ms step_avg:172.27ms
step:1261/1530 train_loss:3.2957 train_time:215521ms step_avg:172.28ms
step:1262/1530 train_loss:3.3177 train_time:215704ms step_avg:172.29ms
step:1263/1530 train_loss:3.2317 train_time:215887ms step_avg:172.30ms
step:1264/1530 train_loss:3.4328 train_time:216064ms step_avg:172.30ms
step:1265/1530 train_loss:3.4211 train_time:216239ms step_avg:172.30ms
step:1266/1530 train_loss:3.4323 train_time:216418ms step_avg:172.31ms
step:1267/1530 train_loss:3.3690 train_time:216597ms step_avg:172.31ms
step:1268/1530 train_loss:3.4000 train_time:216777ms step_avg:172.32ms
step:1269/1530 train_loss:3.2478 train_time:216960ms step_avg:172.33ms
step:1270/1530 train_loss:3.1007 train_time:217137ms step_avg:172.33ms
step:1271/1530 train_loss:3.3966 train_time:217315ms step_avg:172.34ms
step:1272/1530 train_loss:3.3464 train_time:217491ms step_avg:172.34ms
step:1273/1530 train_loss:3.3673 train_time:217672ms step_avg:172.34ms
step:1274/1530 train_loss:3.3575 train_time:217853ms step_avg:172.35ms
step:1275/1530 train_loss:3.4270 train_time:218028ms step_avg:172.35ms
step:1276/1530 train_loss:3.4654 train_time:218203ms step_avg:172.36ms
step:1277/1530 train_loss:3.4036 train_time:218382ms step_avg:172.36ms
step:1278/1530 train_loss:3.4016 train_time:218557ms step_avg:172.36ms
step:1279/1530 train_loss:3.2625 train_time:218737ms step_avg:172.37ms
step:1280/1530 train_loss:3.3568 train_time:218922ms step_avg:172.38ms
step:1281/1530 train_loss:3.4180 train_time:219099ms step_avg:172.38ms
step:1282/1530 train_loss:3.4615 train_time:219275ms step_avg:172.39ms
step:1283/1530 train_loss:3.3268 train_time:219455ms step_avg:172.39ms
step:1284/1530 train_loss:3.3616 train_time:219632ms step_avg:172.40ms
step:1285/1530 train_loss:3.3599 train_time:219810ms step_avg:172.40ms
step:1286/1530 train_loss:3.3273 train_time:219987ms step_avg:172.40ms
step:1287/1530 train_loss:3.4844 train_time:220167ms step_avg:172.41ms
step:1288/1530 train_loss:3.2890 train_time:220349ms step_avg:172.42ms
step:1289/1530 train_loss:3.3784 train_time:220537ms step_avg:172.43ms
step:1290/1530 train_loss:3.4517 train_time:220723ms step_avg:172.44ms
step:1291/1530 train_loss:3.3744 train_time:220901ms step_avg:172.44ms
step:1292/1530 train_loss:3.4714 train_time:221083ms step_avg:172.45ms
step:1293/1530 train_loss:3.5121 train_time:221263ms step_avg:172.46ms
step:1294/1530 train_loss:3.4542 train_time:221443ms step_avg:172.46ms
step:1295/1530 train_loss:3.2739 train_time:221621ms step_avg:172.47ms
step:1296/1530 train_loss:3.3655 train_time:221803ms step_avg:172.47ms
step:1297/1530 train_loss:3.2713 train_time:221982ms step_avg:172.48ms
step:1298/1530 train_loss:3.2632 train_time:222162ms step_avg:172.49ms
step:1299/1530 train_loss:3.3907 train_time:222340ms step_avg:172.49ms
step:1300/1530 train_loss:3.3951 train_time:222517ms step_avg:172.49ms
step:1301/1530 train_loss:3.3960 train_time:222692ms step_avg:172.50ms
step:1302/1530 train_loss:3.5684 train_time:222876ms step_avg:172.50ms
step:1303/1530 train_loss:3.2997 train_time:223058ms step_avg:172.51ms
step:1304/1530 train_loss:3.5045 train_time:223239ms step_avg:172.52ms
step:1305/1530 train_loss:3.2490 train_time:223417ms step_avg:172.52ms
step:1306/1530 train_loss:3.4454 train_time:223599ms step_avg:172.53ms
step:1307/1530 train_loss:3.4533 train_time:223775ms step_avg:172.53ms
step:1308/1530 train_loss:3.2803 train_time:223951ms step_avg:172.54ms
step:1309/1530 train_loss:3.3045 train_time:224131ms step_avg:172.54ms
step:1310/1530 train_loss:3.2837 train_time:224308ms step_avg:172.54ms
step:1311/1530 train_loss:3.2936 train_time:224487ms step_avg:172.55ms
step:1312/1530 train_loss:3.3729 train_time:224667ms step_avg:172.56ms
step:1313/1530 train_loss:3.3373 train_time:224844ms step_avg:172.56ms
step:1314/1530 train_loss:3.0371 train_time:225026ms step_avg:172.57ms
step:1315/1530 train_loss:3.2683 train_time:225203ms step_avg:172.57ms
step:1316/1530 train_loss:3.3932 train_time:225378ms step_avg:172.57ms
step:1317/1530 train_loss:3.4151 train_time:225555ms step_avg:172.57ms
step:1318/1530 train_loss:3.3003 train_time:225741ms step_avg:172.58ms
step:1319/1530 train_loss:3.4229 train_time:225922ms step_avg:172.59ms
step:1320/1530 train_loss:3.4544 train_time:226104ms step_avg:172.60ms
step:1321/1530 train_loss:3.3541 train_time:226283ms step_avg:172.60ms
step:1322/1530 train_loss:3.3217 train_time:226596ms step_avg:172.71ms
step:1323/1530 train_loss:3.3203 train_time:226787ms step_avg:172.72ms
step:1324/1530 train_loss:3.4264 train_time:226969ms step_avg:172.73ms
step:1325/1530 train_loss:3.4851 train_time:227157ms step_avg:172.74ms
step:1326/1530 train_loss:3.2028 train_time:227336ms step_avg:172.75ms
step:1327/1530 train_loss:3.1588 train_time:227514ms step_avg:172.75ms
step:1328/1530 train_loss:3.4880 train_time:227692ms step_avg:172.76ms
step:1329/1530 train_loss:3.2900 train_time:228042ms step_avg:172.89ms
step:1330/1530 train_loss:3.4215 train_time:228224ms step_avg:172.90ms
step:1331/1530 train_loss:3.3233 train_time:228400ms step_avg:172.90ms
step:1332/1530 train_loss:3.7364 train_time:228580ms step_avg:172.90ms
step:1333/1530 train_loss:3.4742 train_time:228760ms step_avg:172.91ms
step:1334/1530 train_loss:3.3665 train_time:228938ms step_avg:172.91ms
step:1335/1530 train_loss:3.2861 train_time:229116ms step_avg:172.92ms
step:1336/1530 train_loss:3.2908 train_time:229300ms step_avg:172.93ms
step:1337/1530 train_loss:3.5465 train_time:229480ms step_avg:172.93ms
step:1338/1530 train_loss:3.5155 train_time:229659ms step_avg:172.94ms
step:1339/1530 train_loss:3.3325 train_time:229838ms step_avg:172.94ms
step:1340/1530 train_loss:3.2796 train_time:230017ms step_avg:172.95ms
step:1341/1530 train_loss:3.5863 train_time:230193ms step_avg:172.95ms
step:1342/1530 train_loss:3.3493 train_time:230373ms step_avg:172.95ms
step:1343/1530 train_loss:3.3565 train_time:230551ms step_avg:172.96ms
step:1344/1530 train_loss:3.4079 train_time:230730ms step_avg:172.96ms
step:1345/1530 train_loss:3.3779 train_time:230913ms step_avg:172.97ms
step:1346/1530 train_loss:3.2911 train_time:231088ms step_avg:172.97ms
step:1347/1530 train_loss:3.2755 train_time:231266ms step_avg:172.97ms
step:1348/1530 train_loss:3.3451 train_time:231443ms step_avg:172.98ms
step:1349/1530 train_loss:3.2700 train_time:231622ms step_avg:172.98ms
step:1350/1530 train_loss:3.3836 train_time:231802ms step_avg:172.99ms
step:1351/1530 train_loss:3.2430 train_time:231980ms step_avg:172.99ms
step:1352/1530 train_loss:3.2995 train_time:232158ms step_avg:172.99ms
step:1353/1530 train_loss:3.3964 train_time:232337ms step_avg:173.00ms
step:1354/1530 train_loss:3.2571 train_time:232515ms step_avg:173.00ms
step:1355/1530 train_loss:3.1864 train_time:232690ms step_avg:173.00ms
step:1356/1530 train_loss:3.5058 train_time:232870ms step_avg:173.01ms
step:1357/1530 train_loss:3.4149 train_time:233053ms step_avg:173.02ms
step:1358/1530 train_loss:3.1802 train_time:233229ms step_avg:173.02ms
step:1359/1530 train_loss:3.4372 train_time:233408ms step_avg:173.02ms
step:1360/1530 train_loss:3.3514 train_time:233589ms step_avg:173.03ms
step:1361/1530 train_loss:3.1192 train_time:233775ms step_avg:173.04ms
step:1362/1530 train_loss:3.3870 train_time:233957ms step_avg:173.05ms
step:1363/1530 train_loss:3.2759 train_time:234144ms step_avg:173.06ms
step:1364/1530 train_loss:3.2976 train_time:234323ms step_avg:173.06ms
step:1365/1530 train_loss:3.3079 train_time:234503ms step_avg:173.06ms
step:1366/1530 train_loss:3.4163 train_time:234685ms step_avg:173.07ms
step:1367/1530 train_loss:3.3945 train_time:234863ms step_avg:173.08ms
step:1368/1530 train_loss:3.3398 train_time:235043ms step_avg:173.08ms
step:1369/1530 train_loss:3.2730 train_time:235231ms step_avg:173.09ms
step:1370/1530 train_loss:3.5990 train_time:235414ms step_avg:173.10ms
step:1371/1530 train_loss:3.3066 train_time:235593ms step_avg:173.10ms
step:1372/1530 train_loss:3.3650 train_time:235776ms step_avg:173.11ms
step:1373/1530 train_loss:3.3634 train_time:235956ms step_avg:173.12ms
step:1374/1530 train_loss:3.1472 train_time:236137ms step_avg:173.12ms
step:1375/1530 train_loss:3.5283 train_time:236317ms step_avg:173.13ms
step:1375/1530 val_loss:3.3057 train_time:236368ms step_avg:173.16ms
step:1376/1530 train_loss:3.3437 train_time:236495ms step_avg:173.13ms
step:1377/1530 train_loss:3.4770 train_time:236675ms step_avg:173.13ms
step:1378/1530 train_loss:3.4605 train_time:236852ms step_avg:173.14ms
step:1379/1530 train_loss:3.1101 train_time:237035ms step_avg:173.14ms
step:1380/1530 train_loss:3.3039 train_time:237214ms step_avg:173.15ms
step:1381/1530 train_loss:3.6951 train_time:237401ms step_avg:173.16ms
step:1382/1530 train_loss:3.2052 train_time:237580ms step_avg:173.16ms
step:1383/1530 train_loss:3.3885 train_time:237762ms step_avg:173.17ms
step:1384/1530 train_loss:3.4730 train_time:237946ms step_avg:173.18ms
step:1385/1530 train_loss:3.4040 train_time:238120ms step_avg:173.18ms
step:1386/1530 train_loss:3.3378 train_time:238300ms step_avg:173.18ms
step:1387/1530 train_loss:3.1902 train_time:238479ms step_avg:173.19ms
step:1388/1530 train_loss:3.3461 train_time:238657ms step_avg:173.19ms
step:1389/1530 train_loss:3.3100 train_time:238842ms step_avg:173.20ms
step:1390/1530 train_loss:3.5610 train_time:239019ms step_avg:173.20ms
step:1391/1530 train_loss:3.2866 train_time:239199ms step_avg:173.21ms
step:1392/1530 train_loss:3.2839 train_time:239377ms step_avg:173.21ms
step:1393/1530 train_loss:3.2312 train_time:239556ms step_avg:173.22ms
step:1394/1530 train_loss:3.4917 train_time:239732ms step_avg:173.22ms
step:1395/1530 train_loss:3.3887 train_time:239913ms step_avg:173.22ms
step:1396/1530 train_loss:3.3959 train_time:240092ms step_avg:173.23ms
step:1397/1530 train_loss:3.3026 train_time:240268ms step_avg:173.23ms
step:1398/1530 train_loss:3.2489 train_time:240444ms step_avg:173.23ms
step:1399/1530 train_loss:3.3146 train_time:240622ms step_avg:173.23ms
step:1400/1530 train_loss:3.3133 train_time:240806ms step_avg:173.24ms
step:1401/1530 train_loss:3.3410 train_time:240982ms step_avg:173.24ms
step:1402/1530 train_loss:3.2961 train_time:241161ms step_avg:173.25ms
step:1403/1530 train_loss:3.4871 train_time:241344ms step_avg:173.25ms
step:1404/1530 train_loss:3.2764 train_time:241521ms step_avg:173.26ms
step:1405/1530 train_loss:3.3098 train_time:241703ms step_avg:173.26ms
step:1406/1530 train_loss:3.3098 train_time:241883ms step_avg:173.27ms
step:1407/1530 train_loss:3.1682 train_time:242057ms step_avg:173.27ms
step:1408/1530 train_loss:3.3093 train_time:242238ms step_avg:173.27ms
step:1409/1530 train_loss:3.2997 train_time:242425ms step_avg:173.28ms
step:1410/1530 train_loss:3.2853 train_time:242601ms step_avg:173.29ms
step:1411/1530 train_loss:3.3620 train_time:242776ms step_avg:173.29ms
step:1412/1530 train_loss:3.3266 train_time:242954ms step_avg:173.29ms
step:1413/1530 train_loss:3.3556 train_time:243133ms step_avg:173.30ms
step:1414/1530 train_loss:3.3221 train_time:243313ms step_avg:173.30ms
step:1415/1530 train_loss:3.3985 train_time:243499ms step_avg:173.31ms
step:1416/1530 train_loss:3.2256 train_time:243687ms step_avg:173.32ms
step:1417/1530 train_loss:3.2799 train_time:243869ms step_avg:173.33ms
step:1418/1530 train_loss:3.3855 train_time:244048ms step_avg:173.33ms
step:1419/1530 train_loss:3.3337 train_time:244231ms step_avg:173.34ms
step:1420/1530 train_loss:3.3607 train_time:244412ms step_avg:173.34ms
step:1421/1530 train_loss:3.3664 train_time:244593ms step_avg:173.35ms
step:1422/1530 train_loss:3.3278 train_time:244771ms step_avg:173.35ms
step:1423/1530 train_loss:3.3113 train_time:244950ms step_avg:173.35ms
step:1424/1530 train_loss:3.3248 train_time:245134ms step_avg:173.36ms
step:1425/1530 train_loss:3.1843 train_time:245319ms step_avg:173.37ms
step:1426/1530 train_loss:3.3214 train_time:245497ms step_avg:173.37ms
step:1427/1530 train_loss:3.2788 train_time:245679ms step_avg:173.38ms
step:1428/1530 train_loss:3.3743 train_time:245858ms step_avg:173.38ms
step:1429/1530 train_loss:3.3490 train_time:246036ms step_avg:173.39ms
step:1430/1530 train_loss:3.2569 train_time:246218ms step_avg:173.39ms
step:1431/1530 train_loss:3.3212 train_time:246399ms step_avg:173.40ms
step:1432/1530 train_loss:3.3329 train_time:246580ms step_avg:173.40ms
step:1433/1530 train_loss:3.1268 train_time:246763ms step_avg:173.41ms
step:1434/1530 train_loss:3.2833 train_time:246947ms step_avg:173.42ms
step:1435/1530 train_loss:3.1097 train_time:247127ms step_avg:173.42ms
step:1436/1530 train_loss:3.2272 train_time:247307ms step_avg:173.43ms
step:1437/1530 train_loss:3.4013 train_time:247485ms step_avg:173.43ms
step:1438/1530 train_loss:3.3742 train_time:247661ms step_avg:173.43ms
step:1439/1530 train_loss:3.3066 train_time:247840ms step_avg:173.44ms
step:1440/1530 train_loss:3.1908 train_time:248015ms step_avg:173.44ms
step:1441/1530 train_loss:3.3325 train_time:248195ms step_avg:173.44ms
step:1442/1530 train_loss:3.3853 train_time:248381ms step_avg:173.45ms
step:1443/1530 train_loss:3.4850 train_time:248569ms step_avg:173.46ms
step:1444/1530 train_loss:3.4380 train_time:248745ms step_avg:173.46ms
step:1445/1530 train_loss:3.3338 train_time:248922ms step_avg:173.46ms
step:1446/1530 train_loss:3.1906 train_time:249102ms step_avg:173.47ms
step:1447/1530 train_loss:3.2918 train_time:249283ms step_avg:173.47ms
step:1448/1530 train_loss:3.2912 train_time:249462ms step_avg:173.48ms
step:1449/1530 train_loss:3.3911 train_time:249640ms step_avg:173.48ms
step:1450/1530 train_loss:3.3813 train_time:249822ms step_avg:173.49ms
step:1451/1530 train_loss:3.1983 train_time:250001ms step_avg:173.49ms
step:1452/1530 train_loss:3.3223 train_time:250180ms step_avg:173.50ms
step:1453/1530 train_loss:3.2559 train_time:250355ms step_avg:173.50ms
step:1454/1530 train_loss:3.2854 train_time:250535ms step_avg:173.50ms
step:1455/1530 train_loss:3.3265 train_time:250717ms step_avg:173.51ms
step:1456/1530 train_loss:3.2770 train_time:250897ms step_avg:173.51ms
step:1457/1530 train_loss:3.1527 train_time:251073ms step_avg:173.51ms
step:1458/1530 train_loss:3.4151 train_time:251252ms step_avg:173.52ms
step:1459/1530 train_loss:3.2649 train_time:251434ms step_avg:173.52ms
step:1460/1530 train_loss:3.3066 train_time:251614ms step_avg:173.53ms
step:1461/1530 train_loss:3.4246 train_time:251794ms step_avg:173.53ms
step:1462/1530 train_loss:3.2570 train_time:251970ms step_avg:173.53ms
step:1463/1530 train_loss:3.4629 train_time:252153ms step_avg:173.54ms
step:1464/1530 train_loss:3.3580 train_time:252333ms step_avg:173.54ms
step:1465/1530 train_loss:3.3542 train_time:252514ms step_avg:173.55ms
step:1466/1530 train_loss:3.2842 train_time:252692ms step_avg:173.55ms
step:1467/1530 train_loss:3.3903 train_time:252872ms step_avg:173.56ms
step:1468/1530 train_loss:3.2789 train_time:253048ms step_avg:173.56ms
step:1469/1530 train_loss:3.2726 train_time:253227ms step_avg:173.56ms
step:1470/1530 train_loss:3.3292 train_time:253409ms step_avg:173.57ms
step:1471/1530 train_loss:3.2526 train_time:253595ms step_avg:173.58ms
step:1472/1530 train_loss:3.2427 train_time:253780ms step_avg:173.58ms
step:1473/1530 train_loss:3.4360 train_time:253957ms step_avg:173.59ms
step:1474/1530 train_loss:3.3059 train_time:254142ms step_avg:173.59ms
step:1475/1530 train_loss:3.1455 train_time:254327ms step_avg:173.60ms
step:1476/1530 train_loss:3.2629 train_time:254507ms step_avg:173.61ms
step:1477/1530 train_loss:3.2403 train_time:254692ms step_avg:173.61ms
step:1478/1530 train_loss:3.3023 train_time:254877ms step_avg:173.62ms
step:1479/1530 train_loss:3.3916 train_time:255059ms step_avg:173.63ms
step:1480/1530 train_loss:3.2649 train_time:255239ms step_avg:173.63ms
step:1481/1530 train_loss:3.4470 train_time:255421ms step_avg:173.64ms
step:1482/1530 train_loss:3.3603 train_time:255609ms step_avg:173.65ms
step:1483/1530 train_loss:3.2682 train_time:255799ms step_avg:173.66ms
step:1484/1530 train_loss:3.2606 train_time:255986ms step_avg:173.67ms
step:1485/1530 train_loss:3.2776 train_time:256166ms step_avg:173.67ms
step:1486/1530 train_loss:3.2254 train_time:256351ms step_avg:173.68ms
step:1487/1530 train_loss:3.3345 train_time:256533ms step_avg:173.69ms
step:1488/1530 train_loss:3.2374 train_time:256717ms step_avg:173.69ms
step:1489/1530 train_loss:3.3090 train_time:256898ms step_avg:173.70ms
step:1490/1530 train_loss:3.2494 train_time:257080ms step_avg:173.70ms
step:1491/1530 train_loss:3.1532 train_time:257261ms step_avg:173.71ms
step:1492/1530 train_loss:3.2625 train_time:257441ms step_avg:173.71ms
step:1493/1530 train_loss:3.4260 train_time:257621ms step_avg:173.72ms
step:1494/1530 train_loss:3.2930 train_time:257801ms step_avg:173.72ms
step:1495/1530 train_loss:3.0298 train_time:257985ms step_avg:173.73ms
step:1496/1530 train_loss:3.3559 train_time:258168ms step_avg:173.73ms
step:1497/1530 train_loss:3.3091 train_time:258351ms step_avg:173.74ms
step:1498/1530 train_loss:3.3409 train_time:258537ms step_avg:173.75ms
step:1499/1530 train_loss:3.3081 train_time:258723ms step_avg:173.76ms
step:1500/1530 train_loss:3.2925 train_time:258916ms step_avg:173.77ms
step:1500/1530 val_loss:3.2749 train_time:258973ms step_avg:173.81ms
step:1501/1530 train_loss:3.0866 train_time:259109ms step_avg:173.78ms
step:1502/1530 train_loss:3.3550 train_time:259302ms step_avg:173.79ms
step:1503/1530 train_loss:3.2417 train_time:259482ms step_avg:173.80ms
step:1504/1530 train_loss:3.2447 train_time:259663ms step_avg:173.80ms
step:1505/1530 train_loss:3.2139 train_time:259842ms step_avg:173.81ms
step:1506/1530 train_loss:3.2742 train_time:260026ms step_avg:173.81ms
step:1507/1530 train_loss:3.1743 train_time:260222ms step_avg:173.83ms
step:1508/1530 train_loss:3.4741 train_time:260404ms step_avg:173.83ms
step:1509/1530 train_loss:3.2806 train_time:260583ms step_avg:173.84ms
step:1510/1530 train_loss:3.2673 train_time:260763ms step_avg:173.84ms
step:1511/1530 train_loss:3.4129 train_time:261076ms step_avg:173.93ms
step:1512/1530 train_loss:3.4167 train_time:261265ms step_avg:173.94ms
step:1513/1530 train_loss:3.2649 train_time:261447ms step_avg:173.95ms
step:1514/1530 train_loss:3.0822 train_time:261631ms step_avg:173.96ms
step:1515/1530 train_loss:3.2341 train_time:261812ms step_avg:173.96ms
step:1516/1530 train_loss:3.2500 train_time:261997ms step_avg:173.97ms
step:1517/1530 train_loss:3.2941 train_time:262179ms step_avg:173.97ms
step:1518/1530 train_loss:3.2017 train_time:262361ms step_avg:173.98ms
step:1519/1530 train_loss:3.5009 train_time:262695ms step_avg:174.09ms
step:1520/1530 train_loss:3.1273 train_time:262880ms step_avg:174.09ms
step:1521/1530 train_loss:3.2019 train_time:263058ms step_avg:174.10ms
step:1522/1530 train_loss:3.3512 train_time:263243ms step_avg:174.10ms
step:1523/1530 train_loss:3.2266 train_time:263421ms step_avg:174.11ms
step:1524/1530 train_loss:3.3442 train_time:263603ms step_avg:174.11ms
step:1525/1530 train_loss:3.3327 train_time:263791ms step_avg:174.12ms
step:1526/1530 train_loss:3.2741 train_time:263981ms step_avg:174.13ms
step:1527/1530 train_loss:3.2910 train_time:264163ms step_avg:174.14ms
step:1528/1530 train_loss:3.4083 train_time:264342ms step_avg:174.14ms
step:1529/1530 train_loss:3.4025 train_time:264522ms step_avg:174.14ms
step:1530/1530 train_loss:3.2364 train_time:264700ms step_avg:174.14ms
step:1530/1530 val_loss:3.2725 train_time:264755ms step_avg:174.18ms