records/120424_ValueEmbed/14511f40-47db-4c94-b35b-70616770fd2d.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 03:09:56 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   39C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   31C    P0              87W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0              92W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   30C    P0             110W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             115W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |     43MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31580ms step_avg:nanms
step:2/1530 train_loss:10.0845 train_time:31691ms step_avg:nanms
step:3/1530 train_loss:8.3786 train_time:31850ms step_avg:nanms
step:4/1530 train_loss:7.5787 train_time:32011ms step_avg:nanms
step:5/1530 train_loss:7.4763 train_time:32170ms step_avg:nanms
step:6/1530 train_loss:6.9768 train_time:32331ms step_avg:nanms
step:7/1530 train_loss:7.2298 train_time:32490ms step_avg:nanms
step:8/1530 train_loss:6.7415 train_time:32651ms step_avg:nanms
step:9/1530 train_loss:6.6388 train_time:32810ms step_avg:nanms
step:10/1530 train_loss:6.5073 train_time:32972ms step_avg:nanms
step:11/1530 train_loss:6.4546 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3340 train_time:273ms step_avg:nanms
step:13/1530 train_loss:6.2629 train_time:434ms step_avg:144.65ms
step:14/1530 train_loss:6.2169 train_time:594ms step_avg:148.58ms
step:15/1530 train_loss:6.1803 train_time:755ms step_avg:150.93ms
step:16/1530 train_loss:6.0939 train_time:914ms step_avg:152.40ms
step:17/1530 train_loss:6.1679 train_time:1074ms step_avg:153.42ms
step:18/1530 train_loss:5.9524 train_time:1234ms step_avg:154.28ms
step:19/1530 train_loss:5.9884 train_time:1394ms step_avg:154.85ms
step:20/1530 train_loss:5.6870 train_time:1555ms step_avg:155.47ms
step:21/1530 train_loss:5.9818 train_time:1715ms step_avg:155.90ms
step:22/1530 train_loss:6.2089 train_time:1875ms step_avg:156.23ms
step:23/1530 train_loss:5.8594 train_time:2035ms step_avg:156.57ms
step:24/1530 train_loss:6.0209 train_time:2196ms step_avg:156.89ms
step:25/1530 train_loss:5.7061 train_time:2358ms step_avg:157.18ms
step:26/1530 train_loss:5.6019 train_time:2517ms step_avg:157.32ms
step:27/1530 train_loss:5.8138 train_time:2677ms step_avg:157.49ms
step:28/1530 train_loss:5.4055 train_time:2838ms step_avg:157.67ms
step:29/1530 train_loss:5.6877 train_time:2998ms step_avg:157.80ms
step:30/1530 train_loss:5.4769 train_time:3159ms step_avg:157.97ms
step:31/1530 train_loss:5.4511 train_time:3320ms step_avg:158.10ms
step:32/1530 train_loss:5.2849 train_time:3481ms step_avg:158.22ms
step:33/1530 train_loss:5.5893 train_time:3642ms step_avg:158.35ms
step:34/1530 train_loss:5.5091 train_time:3802ms step_avg:158.43ms
step:35/1530 train_loss:5.6442 train_time:3964ms step_avg:158.54ms
step:36/1530 train_loss:5.5421 train_time:4124ms step_avg:158.60ms
step:37/1530 train_loss:5.4486 train_time:4284ms step_avg:158.68ms
step:38/1530 train_loss:5.3039 train_time:4447ms step_avg:158.84ms
step:39/1530 train_loss:5.3406 train_time:4608ms step_avg:158.89ms
step:40/1530 train_loss:5.2459 train_time:4769ms step_avg:158.96ms
step:41/1530 train_loss:5.2257 train_time:4929ms step_avg:159.01ms
step:42/1530 train_loss:5.1628 train_time:5090ms step_avg:159.07ms
step:43/1530 train_loss:5.2646 train_time:5251ms step_avg:159.12ms
step:44/1530 train_loss:5.2129 train_time:5411ms step_avg:159.15ms
step:45/1530 train_loss:5.3808 train_time:5570ms step_avg:159.15ms
step:46/1530 train_loss:5.1819 train_time:5730ms step_avg:159.16ms
step:47/1530 train_loss:5.0727 train_time:5890ms step_avg:159.20ms
step:48/1530 train_loss:5.2071 train_time:6053ms step_avg:159.28ms
step:49/1530 train_loss:5.1431 train_time:6212ms step_avg:159.27ms
step:50/1530 train_loss:5.2569 train_time:6373ms step_avg:159.33ms
step:51/1530 train_loss:5.1429 train_time:6534ms step_avg:159.35ms
step:52/1530 train_loss:5.0284 train_time:6694ms step_avg:159.39ms
step:53/1530 train_loss:5.1664 train_time:6853ms step_avg:159.38ms
step:54/1530 train_loss:5.0032 train_time:7014ms step_avg:159.40ms
step:55/1530 train_loss:5.4097 train_time:7175ms step_avg:159.44ms
step:56/1530 train_loss:5.0138 train_time:7335ms step_avg:159.47ms
step:57/1530 train_loss:4.8824 train_time:7494ms step_avg:159.44ms
step:58/1530 train_loss:5.0630 train_time:7655ms step_avg:159.47ms
step:59/1530 train_loss:5.0371 train_time:7814ms step_avg:159.48ms
step:60/1530 train_loss:5.1439 train_time:7974ms step_avg:159.48ms
step:61/1530 train_loss:4.8633 train_time:8135ms step_avg:159.51ms
step:62/1530 train_loss:5.0002 train_time:8296ms step_avg:159.54ms
step:63/1530 train_loss:4.9864 train_time:8456ms step_avg:159.54ms
step:64/1530 train_loss:5.0329 train_time:8617ms step_avg:159.58ms
step:65/1530 train_loss:4.8079 train_time:8777ms step_avg:159.58ms
step:66/1530 train_loss:4.9039 train_time:8939ms step_avg:159.62ms
step:67/1530 train_loss:4.8030 train_time:9097ms step_avg:159.60ms
step:68/1530 train_loss:5.0944 train_time:9259ms step_avg:159.64ms
step:69/1530 train_loss:4.7149 train_time:9421ms step_avg:159.67ms
step:70/1530 train_loss:4.8313 train_time:9581ms step_avg:159.69ms
step:71/1530 train_loss:4.9591 train_time:9742ms step_avg:159.71ms
step:72/1530 train_loss:4.8767 train_time:9902ms step_avg:159.71ms
step:73/1530 train_loss:4.7733 train_time:10064ms step_avg:159.74ms
step:74/1530 train_loss:4.9156 train_time:10225ms step_avg:159.76ms
step:75/1530 train_loss:4.8650 train_time:10385ms step_avg:159.77ms
step:76/1530 train_loss:4.7969 train_time:10546ms step_avg:159.79ms
step:77/1530 train_loss:4.9236 train_time:10706ms step_avg:159.79ms
step:78/1530 train_loss:5.1020 train_time:10867ms step_avg:159.81ms
step:79/1530 train_loss:4.8175 train_time:11028ms step_avg:159.83ms
step:80/1530 train_loss:4.8560 train_time:11189ms step_avg:159.84ms
step:81/1530 train_loss:4.6587 train_time:11350ms step_avg:159.86ms
step:82/1530 train_loss:4.8202 train_time:11511ms step_avg:159.87ms
step:83/1530 train_loss:4.7664 train_time:11670ms step_avg:159.86ms
step:84/1530 train_loss:4.7724 train_time:11832ms step_avg:159.89ms
step:85/1530 train_loss:4.6173 train_time:11992ms step_avg:159.89ms
step:86/1530 train_loss:4.8215 train_time:12152ms step_avg:159.89ms
step:87/1530 train_loss:4.7381 train_time:12311ms step_avg:159.88ms
step:88/1530 train_loss:4.7339 train_time:12472ms step_avg:159.90ms
step:89/1530 train_loss:4.6918 train_time:12632ms step_avg:159.90ms
step:90/1530 train_loss:4.6334 train_time:12792ms step_avg:159.90ms
step:91/1530 train_loss:4.6225 train_time:12952ms step_avg:159.91ms
step:92/1530 train_loss:4.7881 train_time:13113ms step_avg:159.92ms
step:93/1530 train_loss:4.6047 train_time:13273ms step_avg:159.91ms
step:94/1530 train_loss:4.6299 train_time:13433ms step_avg:159.91ms
step:95/1530 train_loss:4.6754 train_time:13593ms step_avg:159.91ms
step:96/1530 train_loss:4.5901 train_time:13754ms step_avg:159.93ms
step:97/1530 train_loss:4.6440 train_time:13913ms step_avg:159.92ms
step:98/1530 train_loss:4.5744 train_time:14073ms step_avg:159.92ms
step:99/1530 train_loss:4.6593 train_time:14234ms step_avg:159.93ms
step:100/1530 train_loss:4.6827 train_time:14395ms step_avg:159.94ms
step:101/1530 train_loss:4.5377 train_time:14554ms step_avg:159.94ms
step:102/1530 train_loss:4.6922 train_time:14714ms step_avg:159.94ms
step:103/1530 train_loss:4.5627 train_time:14875ms step_avg:159.94ms
step:104/1530 train_loss:4.5268 train_time:15035ms step_avg:159.95ms
step:105/1530 train_loss:4.5568 train_time:15194ms step_avg:159.94ms
step:106/1530 train_loss:4.6087 train_time:15356ms step_avg:159.96ms
step:107/1530 train_loss:4.5079 train_time:15515ms step_avg:159.95ms
step:108/1530 train_loss:4.3675 train_time:15675ms step_avg:159.95ms
step:109/1530 train_loss:4.4885 train_time:15836ms step_avg:159.96ms
step:110/1530 train_loss:4.4799 train_time:15997ms step_avg:159.97ms
step:111/1530 train_loss:4.4266 train_time:16160ms step_avg:160.00ms
step:112/1530 train_loss:4.5873 train_time:16321ms step_avg:160.01ms
step:113/1530 train_loss:4.4976 train_time:16482ms step_avg:160.02ms
step:114/1530 train_loss:4.3621 train_time:16643ms step_avg:160.02ms
step:115/1530 train_loss:4.4996 train_time:16805ms step_avg:160.05ms
step:116/1530 train_loss:4.4639 train_time:16970ms step_avg:160.09ms
step:117/1530 train_loss:4.3735 train_time:17135ms step_avg:160.14ms
step:118/1530 train_loss:4.5960 train_time:17300ms step_avg:160.18ms
step:119/1530 train_loss:4.4759 train_time:17465ms step_avg:160.22ms
step:120/1530 train_loss:4.3401 train_time:17628ms step_avg:160.25ms
step:121/1530 train_loss:4.3038 train_time:17791ms step_avg:160.28ms
step:122/1530 train_loss:4.4607 train_time:17955ms step_avg:160.31ms
step:123/1530 train_loss:4.2962 train_time:18118ms step_avg:160.34ms
step:124/1530 train_loss:4.5849 train_time:18282ms step_avg:160.37ms
step:125/1530 train_loss:4.4555 train_time:18447ms step_avg:160.41ms
step:125/1530 val_loss:4.4099 train_time:18494ms step_avg:160.82ms
step:126/1530 train_loss:4.4245 train_time:18613ms step_avg:160.46ms
step:127/1530 train_loss:4.4469 train_time:18778ms step_avg:160.50ms
step:128/1530 train_loss:4.3747 train_time:18943ms step_avg:160.53ms
step:129/1530 train_loss:4.6838 train_time:19107ms step_avg:160.56ms
step:130/1530 train_loss:4.3637 train_time:19271ms step_avg:160.59ms
step:131/1530 train_loss:4.4018 train_time:19435ms step_avg:160.62ms
step:132/1530 train_loss:4.3519 train_time:19599ms step_avg:160.65ms
step:133/1530 train_loss:4.4600 train_time:19764ms step_avg:160.68ms
step:134/1530 train_loss:4.2805 train_time:19928ms step_avg:160.71ms
step:135/1530 train_loss:4.4526 train_time:20092ms step_avg:160.74ms
step:136/1530 train_loss:4.2147 train_time:20256ms step_avg:160.76ms
step:137/1530 train_loss:4.3749 train_time:20421ms step_avg:160.80ms
step:138/1530 train_loss:4.2796 train_time:20585ms step_avg:160.82ms
step:139/1530 train_loss:4.3851 train_time:20750ms step_avg:160.85ms
step:140/1530 train_loss:4.4761 train_time:20914ms step_avg:160.87ms
step:141/1530 train_loss:4.3298 train_time:21079ms step_avg:160.90ms
step:142/1530 train_loss:4.3071 train_time:21242ms step_avg:160.92ms
step:143/1530 train_loss:4.2667 train_time:21406ms step_avg:160.95ms
step:144/1530 train_loss:4.3653 train_time:21570ms step_avg:160.97ms
step:145/1530 train_loss:4.3199 train_time:21733ms step_avg:160.99ms
step:146/1530 train_loss:4.1805 train_time:21898ms step_avg:161.01ms
step:147/1530 train_loss:4.3290 train_time:22063ms step_avg:161.04ms
step:148/1530 train_loss:4.3635 train_time:22226ms step_avg:161.06ms
step:149/1530 train_loss:4.3208 train_time:22389ms step_avg:161.07ms
step:150/1530 train_loss:4.4633 train_time:22553ms step_avg:161.09ms
step:151/1530 train_loss:4.2809 train_time:22716ms step_avg:161.11ms
step:152/1530 train_loss:4.2778 train_time:22880ms step_avg:161.13ms
step:153/1530 train_loss:4.3666 train_time:23044ms step_avg:161.15ms
step:154/1530 train_loss:4.3771 train_time:23208ms step_avg:161.17ms
step:155/1530 train_loss:4.2758 train_time:23371ms step_avg:161.18ms
step:156/1530 train_loss:4.3624 train_time:23535ms step_avg:161.20ms
step:157/1530 train_loss:4.4252 train_time:23698ms step_avg:161.21ms
step:158/1530 train_loss:4.2601 train_time:23862ms step_avg:161.23ms
step:159/1530 train_loss:4.3324 train_time:24026ms step_avg:161.25ms
step:160/1530 train_loss:4.1449 train_time:24189ms step_avg:161.26ms
step:161/1530 train_loss:4.3639 train_time:24353ms step_avg:161.28ms
step:162/1530 train_loss:4.3676 train_time:24516ms step_avg:161.29ms
step:163/1530 train_loss:4.3535 train_time:24679ms step_avg:161.30ms
step:164/1530 train_loss:4.1857 train_time:24844ms step_avg:161.33ms
step:165/1530 train_loss:4.2869 train_time:25009ms step_avg:161.35ms
step:166/1530 train_loss:4.3439 train_time:25172ms step_avg:161.36ms
step:167/1530 train_loss:4.2076 train_time:25337ms step_avg:161.38ms
step:168/1530 train_loss:4.2928 train_time:25500ms step_avg:161.39ms
step:169/1530 train_loss:4.1740 train_time:25664ms step_avg:161.41ms
step:170/1530 train_loss:4.0291 train_time:25827ms step_avg:161.42ms
step:171/1530 train_loss:4.2194 train_time:25990ms step_avg:161.43ms
step:172/1530 train_loss:4.2099 train_time:26153ms step_avg:161.44ms
step:173/1530 train_loss:4.2778 train_time:26316ms step_avg:161.45ms
step:174/1530 train_loss:4.4350 train_time:26479ms step_avg:161.45ms
step:175/1530 train_loss:4.2560 train_time:26642ms step_avg:161.47ms
step:176/1530 train_loss:4.1003 train_time:26805ms step_avg:161.48ms
step:177/1530 train_loss:4.0710 train_time:26968ms step_avg:161.48ms
step:178/1530 train_loss:4.1892 train_time:27131ms step_avg:161.50ms
step:179/1530 train_loss:4.1315 train_time:27294ms step_avg:161.50ms
step:180/1530 train_loss:4.1174 train_time:27456ms step_avg:161.51ms
step:181/1530 train_loss:4.3000 train_time:27619ms step_avg:161.51ms
step:182/1530 train_loss:4.1659 train_time:27782ms step_avg:161.52ms
step:183/1530 train_loss:4.1506 train_time:27946ms step_avg:161.54ms
step:184/1530 train_loss:4.1262 train_time:28110ms step_avg:161.55ms
step:185/1530 train_loss:4.2236 train_time:28272ms step_avg:161.56ms
step:186/1530 train_loss:4.1791 train_time:28436ms step_avg:161.57ms
step:187/1530 train_loss:4.2369 train_time:28599ms step_avg:161.57ms
step:188/1530 train_loss:4.1727 train_time:28891ms step_avg:162.31ms
step:189/1530 train_loss:4.1165 train_time:29223ms step_avg:163.26ms
step:190/1530 train_loss:4.2168 train_time:29383ms step_avg:163.24ms
step:191/1530 train_loss:4.0880 train_time:29546ms step_avg:163.24ms
step:192/1530 train_loss:4.0390 train_time:29709ms step_avg:163.24ms
step:193/1530 train_loss:4.2721 train_time:29873ms step_avg:163.24ms
step:194/1530 train_loss:4.1819 train_time:30036ms step_avg:163.24ms
step:195/1530 train_loss:4.3558 train_time:30198ms step_avg:163.23ms
step:196/1530 train_loss:4.1841 train_time:30361ms step_avg:163.23ms
step:197/1530 train_loss:4.0556 train_time:30525ms step_avg:163.23ms
step:198/1530 train_loss:4.1863 train_time:30686ms step_avg:163.22ms
step:199/1530 train_loss:4.0456 train_time:30850ms step_avg:163.23ms
step:200/1530 train_loss:4.1247 train_time:31013ms step_avg:163.23ms
step:201/1530 train_loss:4.0424 train_time:31176ms step_avg:163.22ms
step:202/1530 train_loss:4.2740 train_time:31340ms step_avg:163.23ms
step:203/1530 train_loss:4.0815 train_time:31502ms step_avg:163.23ms
step:204/1530 train_loss:4.2009 train_time:31666ms step_avg:163.23ms
step:205/1530 train_loss:4.2608 train_time:31829ms step_avg:163.23ms
step:206/1530 train_loss:3.9527 train_time:31991ms step_avg:163.22ms
step:207/1530 train_loss:4.1003 train_time:32154ms step_avg:163.22ms
step:208/1530 train_loss:4.1167 train_time:32318ms step_avg:163.22ms
step:209/1530 train_loss:4.2511 train_time:32481ms step_avg:163.22ms
step:210/1530 train_loss:4.1745 train_time:32645ms step_avg:163.23ms
step:211/1530 train_loss:4.0666 train_time:32808ms step_avg:163.22ms
step:212/1530 train_loss:4.1442 train_time:32970ms step_avg:163.22ms
step:213/1530 train_loss:4.0555 train_time:33133ms step_avg:163.21ms
step:214/1530 train_loss:4.1237 train_time:33296ms step_avg:163.21ms
step:215/1530 train_loss:3.9588 train_time:33459ms step_avg:163.21ms
step:216/1530 train_loss:4.0177 train_time:33622ms step_avg:163.22ms
step:217/1530 train_loss:4.0258 train_time:33785ms step_avg:163.21ms
step:218/1530 train_loss:4.0942 train_time:33950ms step_avg:163.22ms
step:219/1530 train_loss:4.0781 train_time:34112ms step_avg:163.22ms
step:220/1530 train_loss:4.0916 train_time:34275ms step_avg:163.21ms
step:221/1530 train_loss:4.1024 train_time:34439ms step_avg:163.22ms
step:222/1530 train_loss:4.0084 train_time:34602ms step_avg:163.22ms
step:223/1530 train_loss:4.0047 train_time:34765ms step_avg:163.22ms
step:224/1530 train_loss:4.3048 train_time:34929ms step_avg:163.22ms
step:225/1530 train_loss:3.9294 train_time:35091ms step_avg:163.22ms
step:226/1530 train_loss:3.9982 train_time:35254ms step_avg:163.21ms
step:227/1530 train_loss:3.9792 train_time:35417ms step_avg:163.21ms
step:228/1530 train_loss:4.1460 train_time:35582ms step_avg:163.22ms
step:229/1530 train_loss:3.9297 train_time:35749ms step_avg:163.24ms
step:230/1530 train_loss:4.0467 train_time:35915ms step_avg:163.25ms
step:231/1530 train_loss:3.9172 train_time:36082ms step_avg:163.27ms
step:232/1530 train_loss:3.9755 train_time:36248ms step_avg:163.28ms
step:233/1530 train_loss:4.0973 train_time:36415ms step_avg:163.29ms
step:234/1530 train_loss:4.0284 train_time:36581ms step_avg:163.31ms
step:235/1530 train_loss:3.9123 train_time:36748ms step_avg:163.32ms
step:236/1530 train_loss:4.0904 train_time:36914ms step_avg:163.33ms
step:237/1530 train_loss:4.0903 train_time:37080ms step_avg:163.35ms
step:238/1530 train_loss:3.9559 train_time:37247ms step_avg:163.36ms
step:239/1530 train_loss:4.0800 train_time:37413ms step_avg:163.38ms
step:240/1530 train_loss:4.1215 train_time:37580ms step_avg:163.39ms
step:241/1530 train_loss:3.9765 train_time:37747ms step_avg:163.41ms
step:242/1530 train_loss:4.1613 train_time:37913ms step_avg:163.42ms
step:243/1530 train_loss:4.0199 train_time:38080ms step_avg:163.43ms
step:244/1530 train_loss:4.0836 train_time:38245ms step_avg:163.44ms
step:245/1530 train_loss:4.1490 train_time:38411ms step_avg:163.45ms
step:246/1530 train_loss:4.0623 train_time:38578ms step_avg:163.47ms
step:247/1530 train_loss:4.0153 train_time:38743ms step_avg:163.47ms
step:248/1530 train_loss:4.1117 train_time:38909ms step_avg:163.48ms
step:249/1530 train_loss:3.9349 train_time:39074ms step_avg:163.49ms
step:250/1530 train_loss:3.9837 train_time:39242ms step_avg:163.51ms
step:250/1530 val_loss:4.0224 train_time:39289ms step_avg:163.70ms
step:251/1530 train_loss:4.0929 train_time:39412ms step_avg:163.54ms
step:252/1530 train_loss:4.1726 train_time:39581ms step_avg:163.56ms
step:253/1530 train_loss:3.9440 train_time:39749ms step_avg:163.58ms
step:254/1530 train_loss:3.8842 train_time:39916ms step_avg:163.59ms
step:255/1530 train_loss:4.0846 train_time:40081ms step_avg:163.60ms
step:256/1530 train_loss:4.0049 train_time:40248ms step_avg:163.61ms
step:257/1530 train_loss:3.9970 train_time:40414ms step_avg:163.62ms
step:258/1530 train_loss:3.9923 train_time:40580ms step_avg:163.63ms
step:259/1530 train_loss:4.0359 train_time:40746ms step_avg:163.64ms
step:260/1530 train_loss:4.0605 train_time:40913ms step_avg:163.65ms
step:261/1530 train_loss:4.0293 train_time:41079ms step_avg:163.66ms
step:262/1530 train_loss:4.0018 train_time:41245ms step_avg:163.67ms
step:263/1530 train_loss:3.9084 train_time:41412ms step_avg:163.68ms
step:264/1530 train_loss:3.9887 train_time:41577ms step_avg:163.69ms
step:265/1530 train_loss:3.8740 train_time:41744ms step_avg:163.70ms
step:266/1530 train_loss:3.9251 train_time:41911ms step_avg:163.72ms
step:267/1530 train_loss:3.9380 train_time:42077ms step_avg:163.72ms
step:268/1530 train_loss:3.9666 train_time:42243ms step_avg:163.73ms
step:269/1530 train_loss:3.8643 train_time:42408ms step_avg:163.74ms
step:270/1530 train_loss:4.1111 train_time:42574ms step_avg:163.75ms
step:271/1530 train_loss:3.9763 train_time:42741ms step_avg:163.76ms
step:272/1530 train_loss:3.9327 train_time:42906ms step_avg:163.76ms
step:273/1530 train_loss:3.9457 train_time:43072ms step_avg:163.77ms
step:274/1530 train_loss:4.0457 train_time:43238ms step_avg:163.78ms
step:275/1530 train_loss:4.0701 train_time:43405ms step_avg:163.79ms
step:276/1530 train_loss:4.2540 train_time:43571ms step_avg:163.80ms
step:277/1530 train_loss:4.0528 train_time:43737ms step_avg:163.81ms
step:278/1530 train_loss:4.1027 train_time:43904ms step_avg:163.82ms
step:279/1530 train_loss:4.0105 train_time:44071ms step_avg:163.83ms
step:280/1530 train_loss:4.2262 train_time:44237ms step_avg:163.84ms
step:281/1530 train_loss:3.9875 train_time:44405ms step_avg:163.86ms
step:282/1530 train_loss:3.9599 train_time:44573ms step_avg:163.87ms
step:283/1530 train_loss:3.9257 train_time:44739ms step_avg:163.88ms
step:284/1530 train_loss:4.0588 train_time:44906ms step_avg:163.89ms
step:285/1530 train_loss:4.0697 train_time:45072ms step_avg:163.90ms
step:286/1530 train_loss:4.1058 train_time:45237ms step_avg:163.90ms
step:287/1530 train_loss:3.9178 train_time:45402ms step_avg:163.91ms
step:288/1530 train_loss:4.0145 train_time:45567ms step_avg:163.91ms
step:289/1530 train_loss:3.8722 train_time:45731ms step_avg:163.91ms
step:290/1530 train_loss:3.8719 train_time:45897ms step_avg:163.92ms
step:291/1530 train_loss:3.9145 train_time:46062ms step_avg:163.92ms
step:292/1530 train_loss:3.8681 train_time:46227ms step_avg:163.92ms
step:293/1530 train_loss:3.9120 train_time:46392ms step_avg:163.93ms
step:294/1530 train_loss:3.9445 train_time:46556ms step_avg:163.93ms
step:295/1530 train_loss:3.8466 train_time:46721ms step_avg:163.93ms
step:296/1530 train_loss:3.8629 train_time:46887ms step_avg:163.94ms
step:297/1530 train_loss:3.8711 train_time:47051ms step_avg:163.94ms
step:298/1530 train_loss:3.9801 train_time:47217ms step_avg:163.95ms
step:299/1530 train_loss:3.8290 train_time:47382ms step_avg:163.95ms
step:300/1530 train_loss:3.9801 train_time:47547ms step_avg:163.95ms
step:301/1530 train_loss:3.9669 train_time:47713ms step_avg:163.96ms
step:302/1530 train_loss:3.9366 train_time:47878ms step_avg:163.96ms
step:303/1530 train_loss:3.9900 train_time:48043ms step_avg:163.97ms
step:304/1530 train_loss:3.9765 train_time:48209ms step_avg:163.98ms
step:305/1530 train_loss:4.4660 train_time:48374ms step_avg:163.98ms
step:306/1530 train_loss:3.9407 train_time:48539ms step_avg:163.98ms
step:307/1530 train_loss:3.8455 train_time:48704ms step_avg:163.99ms
step:308/1530 train_loss:3.9878 train_time:48870ms step_avg:163.99ms
step:309/1530 train_loss:3.8892 train_time:49035ms step_avg:164.00ms
step:310/1530 train_loss:4.0922 train_time:49200ms step_avg:164.00ms
step:311/1530 train_loss:3.9304 train_time:49366ms step_avg:164.01ms
step:312/1530 train_loss:3.8771 train_time:49533ms step_avg:164.02ms
step:313/1530 train_loss:3.9349 train_time:49698ms step_avg:164.02ms
step:314/1530 train_loss:4.0727 train_time:49863ms step_avg:164.02ms
step:315/1530 train_loss:3.9551 train_time:50028ms step_avg:164.03ms
step:316/1530 train_loss:3.8010 train_time:50193ms step_avg:164.03ms
step:317/1530 train_loss:3.8821 train_time:50358ms step_avg:164.03ms
step:318/1530 train_loss:3.9279 train_time:50524ms step_avg:164.04ms
step:319/1530 train_loss:3.9009 train_time:50690ms step_avg:164.04ms
step:320/1530 train_loss:4.0151 train_time:50854ms step_avg:164.05ms
step:321/1530 train_loss:3.9617 train_time:51019ms step_avg:164.05ms
step:322/1530 train_loss:3.9366 train_time:51186ms step_avg:164.06ms
step:323/1530 train_loss:4.0134 train_time:51351ms step_avg:164.06ms
step:324/1530 train_loss:3.9536 train_time:51517ms step_avg:164.07ms
step:325/1530 train_loss:4.0180 train_time:51682ms step_avg:164.07ms
step:326/1530 train_loss:3.8983 train_time:51848ms step_avg:164.08ms
step:327/1530 train_loss:4.4119 train_time:52013ms step_avg:164.08ms
step:328/1530 train_loss:4.0776 train_time:52178ms step_avg:164.08ms
step:329/1530 train_loss:3.8024 train_time:52345ms step_avg:164.09ms
step:330/1530 train_loss:3.7627 train_time:52511ms step_avg:164.10ms
step:331/1530 train_loss:3.9876 train_time:52676ms step_avg:164.10ms
step:332/1530 train_loss:3.9153 train_time:52840ms step_avg:164.10ms
step:333/1530 train_loss:3.8930 train_time:53007ms step_avg:164.11ms
step:334/1530 train_loss:3.8448 train_time:53173ms step_avg:164.11ms
step:335/1530 train_loss:4.0191 train_time:53337ms step_avg:164.11ms
step:336/1530 train_loss:3.9627 train_time:53503ms step_avg:164.12ms
step:337/1530 train_loss:4.4472 train_time:53670ms step_avg:164.13ms
step:338/1530 train_loss:3.9516 train_time:53835ms step_avg:164.13ms
step:339/1530 train_loss:3.8784 train_time:54001ms step_avg:164.14ms
step:340/1530 train_loss:3.9424 train_time:54165ms step_avg:164.14ms
step:341/1530 train_loss:3.8654 train_time:54331ms step_avg:164.14ms
step:342/1530 train_loss:3.8172 train_time:54498ms step_avg:164.15ms
step:343/1530 train_loss:3.8435 train_time:54666ms step_avg:164.16ms
step:344/1530 train_loss:4.0009 train_time:54835ms step_avg:164.18ms
step:345/1530 train_loss:3.8230 train_time:55004ms step_avg:164.19ms
step:346/1530 train_loss:3.7729 train_time:55173ms step_avg:164.21ms
step:347/1530 train_loss:3.8038 train_time:55341ms step_avg:164.22ms
step:348/1530 train_loss:3.8640 train_time:55510ms step_avg:164.23ms
step:349/1530 train_loss:3.8314 train_time:55677ms step_avg:164.24ms
step:350/1530 train_loss:3.5771 train_time:55845ms step_avg:164.25ms
step:351/1530 train_loss:3.8353 train_time:56014ms step_avg:164.26ms
step:352/1530 train_loss:4.1906 train_time:56181ms step_avg:164.27ms
step:353/1530 train_loss:3.6748 train_time:56350ms step_avg:164.28ms
step:354/1530 train_loss:3.9337 train_time:56518ms step_avg:164.30ms
step:355/1530 train_loss:3.7956 train_time:56686ms step_avg:164.31ms
step:356/1530 train_loss:3.8929 train_time:56853ms step_avg:164.32ms
step:357/1530 train_loss:3.7672 train_time:57021ms step_avg:164.33ms
step:358/1530 train_loss:3.8700 train_time:57189ms step_avg:164.34ms
step:359/1530 train_loss:3.8118 train_time:57358ms step_avg:164.35ms
step:360/1530 train_loss:3.4485 train_time:57527ms step_avg:164.36ms
step:361/1530 train_loss:4.0342 train_time:57696ms step_avg:164.38ms
step:362/1530 train_loss:3.9278 train_time:57864ms step_avg:164.39ms
step:363/1530 train_loss:3.8510 train_time:58031ms step_avg:164.39ms
step:364/1530 train_loss:3.7556 train_time:58199ms step_avg:164.41ms
step:365/1530 train_loss:3.9218 train_time:58367ms step_avg:164.41ms
step:366/1530 train_loss:3.8638 train_time:58535ms step_avg:164.42ms
step:367/1530 train_loss:3.8621 train_time:58702ms step_avg:164.43ms
step:368/1530 train_loss:3.8545 train_time:58869ms step_avg:164.44ms
step:369/1530 train_loss:3.7535 train_time:59037ms step_avg:164.45ms
step:370/1530 train_loss:3.8840 train_time:59205ms step_avg:164.46ms
step:371/1530 train_loss:3.7404 train_time:59373ms step_avg:164.47ms
step:372/1530 train_loss:3.7049 train_time:59541ms step_avg:164.48ms
step:373/1530 train_loss:3.9227 train_time:59710ms step_avg:164.49ms
step:374/1530 train_loss:3.8341 train_time:59876ms step_avg:164.50ms
step:375/1530 train_loss:3.8091 train_time:60044ms step_avg:164.50ms
step:375/1530 val_loss:3.8310 train_time:60093ms step_avg:164.64ms
step:376/1530 train_loss:3.8753 train_time:60212ms step_avg:164.51ms
step:377/1530 train_loss:3.7952 train_time:60510ms step_avg:164.88ms
step:378/1530 train_loss:3.8537 train_time:60690ms step_avg:164.92ms
step:379/1530 train_loss:3.8846 train_time:61013ms step_avg:165.35ms
step:380/1530 train_loss:3.9647 train_time:61181ms step_avg:165.35ms
step:381/1530 train_loss:3.8507 train_time:61349ms step_avg:165.36ms
step:382/1530 train_loss:3.8061 train_time:61518ms step_avg:165.37ms
step:383/1530 train_loss:3.8052 train_time:61685ms step_avg:165.37ms
step:384/1530 train_loss:3.8785 train_time:61852ms step_avg:165.38ms
step:385/1530 train_loss:3.8040 train_time:62020ms step_avg:165.39ms
step:386/1530 train_loss:3.8987 train_time:62187ms step_avg:165.39ms
step:387/1530 train_loss:4.0643 train_time:62355ms step_avg:165.40ms
step:388/1530 train_loss:3.7999 train_time:62523ms step_avg:165.41ms
step:389/1530 train_loss:3.8063 train_time:62691ms step_avg:165.41ms
step:390/1530 train_loss:3.9051 train_time:62860ms step_avg:165.42ms
step:391/1530 train_loss:3.8199 train_time:63028ms step_avg:165.43ms
step:392/1530 train_loss:3.9394 train_time:63196ms step_avg:165.43ms
step:393/1530 train_loss:3.7709 train_time:63364ms step_avg:165.44ms
step:394/1530 train_loss:3.8904 train_time:63531ms step_avg:165.45ms
step:395/1530 train_loss:3.6384 train_time:63699ms step_avg:165.45ms
step:396/1530 train_loss:3.8462 train_time:63867ms step_avg:165.46ms
step:397/1530 train_loss:3.8700 train_time:64036ms step_avg:165.47ms
step:398/1530 train_loss:3.8885 train_time:64203ms step_avg:165.47ms
step:399/1530 train_loss:3.7718 train_time:64371ms step_avg:165.48ms
step:400/1530 train_loss:3.8399 train_time:64540ms step_avg:165.49ms
step:401/1530 train_loss:3.9147 train_time:64706ms step_avg:165.49ms
step:402/1530 train_loss:3.8503 train_time:64873ms step_avg:165.49ms
step:403/1530 train_loss:3.9700 train_time:65042ms step_avg:165.50ms
step:404/1530 train_loss:3.6908 train_time:65209ms step_avg:165.50ms
step:405/1530 train_loss:3.7963 train_time:65376ms step_avg:165.51ms
step:406/1530 train_loss:4.1020 train_time:65544ms step_avg:165.51ms
step:407/1530 train_loss:3.7839 train_time:65711ms step_avg:165.52ms
step:408/1530 train_loss:3.8308 train_time:65877ms step_avg:165.52ms
step:409/1530 train_loss:3.8568 train_time:66045ms step_avg:165.53ms
step:410/1530 train_loss:3.7614 train_time:66212ms step_avg:165.53ms
step:411/1530 train_loss:3.7657 train_time:66379ms step_avg:165.53ms
step:412/1530 train_loss:4.1861 train_time:66547ms step_avg:165.54ms
step:413/1530 train_loss:3.6466 train_time:66713ms step_avg:165.54ms
step:414/1530 train_loss:4.0168 train_time:66882ms step_avg:165.55ms
step:415/1530 train_loss:3.7609 train_time:67049ms step_avg:165.55ms
step:416/1530 train_loss:3.7717 train_time:67216ms step_avg:165.56ms
step:417/1530 train_loss:3.9590 train_time:67384ms step_avg:165.56ms
step:418/1530 train_loss:3.6908 train_time:67550ms step_avg:165.56ms
step:419/1530 train_loss:3.8179 train_time:67716ms step_avg:165.57ms
step:420/1530 train_loss:3.7174 train_time:67885ms step_avg:165.57ms
step:421/1530 train_loss:3.6519 train_time:68051ms step_avg:165.57ms
step:422/1530 train_loss:3.7840 train_time:68218ms step_avg:165.58ms
step:423/1530 train_loss:3.8798 train_time:68385ms step_avg:165.58ms
step:424/1530 train_loss:3.6206 train_time:68553ms step_avg:165.59ms
step:425/1530 train_loss:3.7958 train_time:68721ms step_avg:165.59ms
step:426/1530 train_loss:3.6516 train_time:68888ms step_avg:165.60ms
step:427/1530 train_loss:3.8956 train_time:69056ms step_avg:165.60ms
step:428/1530 train_loss:3.8207 train_time:69223ms step_avg:165.61ms
step:429/1530 train_loss:3.7674 train_time:69390ms step_avg:165.61ms
step:430/1530 train_loss:3.7089 train_time:69558ms step_avg:165.61ms
step:431/1530 train_loss:3.6332 train_time:69725ms step_avg:165.62ms
step:432/1530 train_loss:3.7680 train_time:69892ms step_avg:165.62ms
step:433/1530 train_loss:3.8270 train_time:70060ms step_avg:165.63ms
step:434/1530 train_loss:3.7850 train_time:70227ms step_avg:165.63ms
step:435/1530 train_loss:3.8120 train_time:70395ms step_avg:165.64ms
step:436/1530 train_loss:3.8355 train_time:70562ms step_avg:165.64ms
step:437/1530 train_loss:3.7353 train_time:70730ms step_avg:165.64ms
step:438/1530 train_loss:3.7074 train_time:70897ms step_avg:165.65ms
step:439/1530 train_loss:3.7190 train_time:71065ms step_avg:165.65ms
step:440/1530 train_loss:3.8924 train_time:71232ms step_avg:165.66ms
step:441/1530 train_loss:3.7644 train_time:71399ms step_avg:165.66ms
step:442/1530 train_loss:3.7491 train_time:71566ms step_avg:165.66ms
step:443/1530 train_loss:3.6296 train_time:71733ms step_avg:165.66ms
step:444/1530 train_loss:3.9300 train_time:71899ms step_avg:165.67ms
step:445/1530 train_loss:3.8552 train_time:72066ms step_avg:165.67ms
step:446/1530 train_loss:3.8486 train_time:72233ms step_avg:165.67ms
step:447/1530 train_loss:3.7576 train_time:72401ms step_avg:165.68ms
step:448/1530 train_loss:3.8594 train_time:72567ms step_avg:165.68ms
step:449/1530 train_loss:3.6944 train_time:72734ms step_avg:165.68ms
step:450/1530 train_loss:3.7305 train_time:72902ms step_avg:165.69ms
step:451/1530 train_loss:3.5907 train_time:73069ms step_avg:165.69ms
step:452/1530 train_loss:3.7145 train_time:73237ms step_avg:165.69ms
step:453/1530 train_loss:3.6757 train_time:73403ms step_avg:165.70ms
step:454/1530 train_loss:3.6445 train_time:73570ms step_avg:165.70ms
step:455/1530 train_loss:3.8489 train_time:73740ms step_avg:165.71ms
step:456/1530 train_loss:3.7274 train_time:73910ms step_avg:165.72ms
step:457/1530 train_loss:3.7866 train_time:74080ms step_avg:165.73ms
step:458/1530 train_loss:3.8343 train_time:74250ms step_avg:165.74ms
step:459/1530 train_loss:3.6389 train_time:74421ms step_avg:165.75ms
step:460/1530 train_loss:3.7927 train_time:74590ms step_avg:165.76ms
step:461/1530 train_loss:3.6981 train_time:74764ms step_avg:165.77ms
step:462/1530 train_loss:3.7437 train_time:74935ms step_avg:165.78ms
step:463/1530 train_loss:3.7786 train_time:75104ms step_avg:165.79ms
step:464/1530 train_loss:3.7253 train_time:75273ms step_avg:165.80ms
step:465/1530 train_loss:3.7224 train_time:75443ms step_avg:165.81ms
step:466/1530 train_loss:3.8047 train_time:75611ms step_avg:165.81ms
step:467/1530 train_loss:3.8283 train_time:75783ms step_avg:165.83ms
step:468/1530 train_loss:3.7943 train_time:75951ms step_avg:165.83ms
step:469/1530 train_loss:3.6916 train_time:76122ms step_avg:165.84ms
step:470/1530 train_loss:3.7659 train_time:76291ms step_avg:165.85ms
step:471/1530 train_loss:3.8138 train_time:76462ms step_avg:165.86ms
step:472/1530 train_loss:3.7950 train_time:76631ms step_avg:165.87ms
step:473/1530 train_loss:3.7162 train_time:76802ms step_avg:165.88ms
step:474/1530 train_loss:3.5994 train_time:76972ms step_avg:165.89ms
step:475/1530 train_loss:4.0263 train_time:77142ms step_avg:165.90ms
step:476/1530 train_loss:3.7572 train_time:77311ms step_avg:165.90ms
step:477/1530 train_loss:3.5951 train_time:77482ms step_avg:165.91ms
step:478/1530 train_loss:3.8307 train_time:77651ms step_avg:165.92ms
step:479/1530 train_loss:3.7841 train_time:77822ms step_avg:165.93ms
step:480/1530 train_loss:3.9296 train_time:77991ms step_avg:165.94ms
step:481/1530 train_loss:3.7275 train_time:78162ms step_avg:165.95ms
step:482/1530 train_loss:3.5339 train_time:78330ms step_avg:165.95ms
step:483/1530 train_loss:3.8119 train_time:78500ms step_avg:165.96ms
step:484/1530 train_loss:3.6666 train_time:78669ms step_avg:165.97ms
step:485/1530 train_loss:3.6604 train_time:78839ms step_avg:165.98ms
step:486/1530 train_loss:3.5793 train_time:79008ms step_avg:165.98ms
step:487/1530 train_loss:3.6894 train_time:79179ms step_avg:165.99ms
step:488/1530 train_loss:3.8816 train_time:79348ms step_avg:166.00ms
step:489/1530 train_loss:3.7163 train_time:79519ms step_avg:166.01ms
step:490/1530 train_loss:3.6004 train_time:79687ms step_avg:166.02ms
step:491/1530 train_loss:3.6199 train_time:79857ms step_avg:166.02ms
step:492/1530 train_loss:3.7385 train_time:80026ms step_avg:166.03ms
step:493/1530 train_loss:3.5789 train_time:80197ms step_avg:166.04ms
step:494/1530 train_loss:3.7099 train_time:80366ms step_avg:166.05ms
step:495/1530 train_loss:3.6667 train_time:80537ms step_avg:166.06ms
step:496/1530 train_loss:3.5176 train_time:80707ms step_avg:166.06ms
step:497/1530 train_loss:3.7420 train_time:80877ms step_avg:166.07ms
step:498/1530 train_loss:3.7902 train_time:81047ms step_avg:166.08ms
step:499/1530 train_loss:3.8246 train_time:81217ms step_avg:166.09ms
step:500/1530 train_loss:3.7358 train_time:81387ms step_avg:166.10ms
step:500/1530 val_loss:3.7111 train_time:81437ms step_avg:166.20ms
step:501/1530 train_loss:3.8117 train_time:81561ms step_avg:166.11ms
step:502/1530 train_loss:3.7593 train_time:81734ms step_avg:166.13ms
step:503/1530 train_loss:3.7782 train_time:81904ms step_avg:166.13ms
step:504/1530 train_loss:3.7262 train_time:82072ms step_avg:166.14ms
step:505/1530 train_loss:3.8073 train_time:82242ms step_avg:166.14ms
step:506/1530 train_loss:3.6511 train_time:82411ms step_avg:166.15ms
step:507/1530 train_loss:3.7697 train_time:82580ms step_avg:166.16ms
step:508/1530 train_loss:3.8296 train_time:82750ms step_avg:166.16ms
step:509/1530 train_loss:3.7739 train_time:82920ms step_avg:166.17ms
step:510/1530 train_loss:3.5852 train_time:83088ms step_avg:166.18ms
step:511/1530 train_loss:3.7814 train_time:83257ms step_avg:166.18ms
step:512/1530 train_loss:3.7263 train_time:83428ms step_avg:166.19ms
step:513/1530 train_loss:3.6705 train_time:83597ms step_avg:166.20ms
step:514/1530 train_loss:3.8607 train_time:83766ms step_avg:166.20ms
step:515/1530 train_loss:3.7348 train_time:83934ms step_avg:166.21ms
step:516/1530 train_loss:4.0816 train_time:84106ms step_avg:166.22ms
step:517/1530 train_loss:3.7043 train_time:84275ms step_avg:166.22ms
step:518/1530 train_loss:3.7745 train_time:84443ms step_avg:166.23ms
step:519/1530 train_loss:3.6652 train_time:84613ms step_avg:166.23ms
step:520/1530 train_loss:3.6967 train_time:84782ms step_avg:166.24ms
step:521/1530 train_loss:3.6681 train_time:84951ms step_avg:166.24ms
step:522/1530 train_loss:3.6718 train_time:85121ms step_avg:166.25ms
step:523/1530 train_loss:4.2959 train_time:85291ms step_avg:166.26ms
step:524/1530 train_loss:3.7440 train_time:85460ms step_avg:166.26ms
step:525/1530 train_loss:3.6826 train_time:85628ms step_avg:166.27ms
step:526/1530 train_loss:3.6940 train_time:85798ms step_avg:166.28ms
step:527/1530 train_loss:3.6616 train_time:85967ms step_avg:166.28ms
step:528/1530 train_loss:3.6324 train_time:86136ms step_avg:166.29ms
step:529/1530 train_loss:3.8523 train_time:86305ms step_avg:166.29ms
step:530/1530 train_loss:3.6533 train_time:86474ms step_avg:166.30ms
step:531/1530 train_loss:3.9238 train_time:86642ms step_avg:166.30ms
step:532/1530 train_loss:3.7330 train_time:86812ms step_avg:166.31ms
step:533/1530 train_loss:3.6556 train_time:86981ms step_avg:166.31ms
step:534/1530 train_loss:3.6748 train_time:87148ms step_avg:166.31ms
step:535/1530 train_loss:3.6106 train_time:87318ms step_avg:166.32ms
step:536/1530 train_loss:3.7531 train_time:87488ms step_avg:166.33ms
step:537/1530 train_loss:3.7337 train_time:87657ms step_avg:166.33ms
step:538/1530 train_loss:3.6337 train_time:87827ms step_avg:166.34ms
step:539/1530 train_loss:4.1184 train_time:88000ms step_avg:166.35ms
step:540/1530 train_loss:3.6788 train_time:88169ms step_avg:166.36ms
step:541/1530 train_loss:3.7865 train_time:88337ms step_avg:166.36ms
step:542/1530 train_loss:3.5898 train_time:88506ms step_avg:166.36ms
step:543/1530 train_loss:3.5876 train_time:88676ms step_avg:166.37ms
step:544/1530 train_loss:3.6463 train_time:88844ms step_avg:166.37ms
step:545/1530 train_loss:3.5983 train_time:89014ms step_avg:166.38ms
step:546/1530 train_loss:3.6275 train_time:89184ms step_avg:166.39ms
step:547/1530 train_loss:3.6483 train_time:89352ms step_avg:166.39ms
step:548/1530 train_loss:3.6103 train_time:89521ms step_avg:166.40ms
step:549/1530 train_loss:3.7241 train_time:89689ms step_avg:166.40ms
step:550/1530 train_loss:3.6270 train_time:89859ms step_avg:166.41ms
step:551/1530 train_loss:3.6364 train_time:90027ms step_avg:166.41ms
step:552/1530 train_loss:3.9402 train_time:90198ms step_avg:166.42ms
step:553/1530 train_loss:3.7603 train_time:90367ms step_avg:166.42ms
step:554/1530 train_loss:3.7161 train_time:90536ms step_avg:166.43ms
step:555/1530 train_loss:3.6338 train_time:90705ms step_avg:166.43ms
step:556/1530 train_loss:3.7062 train_time:90874ms step_avg:166.44ms
step:557/1530 train_loss:3.3213 train_time:91043ms step_avg:166.44ms
step:558/1530 train_loss:3.6116 train_time:91212ms step_avg:166.45ms
step:559/1530 train_loss:3.6515 train_time:91381ms step_avg:166.45ms
step:560/1530 train_loss:3.6947 train_time:91548ms step_avg:166.45ms
step:561/1530 train_loss:3.6124 train_time:91717ms step_avg:166.45ms
step:562/1530 train_loss:3.5572 train_time:91886ms step_avg:166.46ms
step:563/1530 train_loss:3.7615 train_time:92053ms step_avg:166.46ms
step:564/1530 train_loss:3.5752 train_time:92223ms step_avg:166.47ms
step:565/1530 train_loss:3.6855 train_time:92391ms step_avg:166.47ms
step:566/1530 train_loss:3.6246 train_time:92689ms step_avg:166.71ms
step:567/1530 train_loss:3.6010 train_time:92868ms step_avg:166.73ms
step:568/1530 train_loss:3.6869 train_time:93037ms step_avg:166.73ms
step:569/1530 train_loss:3.6496 train_time:93356ms step_avg:167.00ms
step:570/1530 train_loss:3.6888 train_time:93526ms step_avg:167.01ms
step:571/1530 train_loss:3.7639 train_time:93699ms step_avg:167.02ms
step:572/1530 train_loss:3.7316 train_time:93869ms step_avg:167.03ms
step:573/1530 train_loss:3.7389 train_time:94043ms step_avg:167.04ms
step:574/1530 train_loss:3.7798 train_time:94215ms step_avg:167.05ms
step:575/1530 train_loss:3.7348 train_time:94386ms step_avg:167.06ms
step:576/1530 train_loss:3.7628 train_time:94557ms step_avg:167.06ms
step:577/1530 train_loss:3.6801 train_time:94728ms step_avg:167.07ms
step:578/1530 train_loss:3.6780 train_time:94902ms step_avg:167.08ms
step:579/1530 train_loss:3.6729 train_time:95072ms step_avg:167.09ms
step:580/1530 train_loss:3.5968 train_time:95243ms step_avg:167.09ms
step:581/1530 train_loss:3.6440 train_time:95414ms step_avg:167.10ms
step:582/1530 train_loss:3.8535 train_time:95586ms step_avg:167.11ms
step:583/1530 train_loss:3.6297 train_time:95757ms step_avg:167.12ms
step:584/1530 train_loss:3.5964 train_time:95928ms step_avg:167.12ms
step:585/1530 train_loss:3.7955 train_time:96100ms step_avg:167.13ms
step:586/1530 train_loss:3.5247 train_time:96270ms step_avg:167.14ms
step:587/1530 train_loss:3.6704 train_time:96441ms step_avg:167.14ms
step:588/1530 train_loss:3.6497 train_time:96611ms step_avg:167.15ms
step:589/1530 train_loss:3.9970 train_time:96784ms step_avg:167.16ms
step:590/1530 train_loss:3.7875 train_time:96955ms step_avg:167.16ms
step:591/1530 train_loss:3.5131 train_time:97127ms step_avg:167.17ms
step:592/1530 train_loss:3.5388 train_time:97301ms step_avg:167.18ms
step:593/1530 train_loss:3.5064 train_time:97474ms step_avg:167.19ms
step:594/1530 train_loss:3.5616 train_time:97645ms step_avg:167.20ms
step:595/1530 train_loss:3.9167 train_time:97819ms step_avg:167.21ms
step:596/1530 train_loss:3.6511 train_time:97991ms step_avg:167.22ms
step:597/1530 train_loss:3.5896 train_time:98161ms step_avg:167.22ms
step:598/1530 train_loss:3.6575 train_time:98330ms step_avg:167.23ms
step:599/1530 train_loss:3.4853 train_time:98502ms step_avg:167.24ms
step:600/1530 train_loss:3.6004 train_time:98672ms step_avg:167.24ms
step:601/1530 train_loss:3.6517 train_time:98845ms step_avg:167.25ms
step:602/1530 train_loss:3.6777 train_time:99019ms step_avg:167.26ms
step:603/1530 train_loss:3.7912 train_time:99189ms step_avg:167.27ms
step:604/1530 train_loss:3.6134 train_time:99361ms step_avg:167.27ms
step:605/1530 train_loss:3.6136 train_time:99533ms step_avg:167.28ms
step:606/1530 train_loss:3.5742 train_time:99706ms step_avg:167.29ms
step:607/1530 train_loss:3.8395 train_time:99878ms step_avg:167.30ms
step:608/1530 train_loss:3.6382 train_time:100048ms step_avg:167.30ms
step:609/1530 train_loss:3.6223 train_time:100220ms step_avg:167.31ms
step:610/1530 train_loss:3.7088 train_time:100389ms step_avg:167.31ms
step:611/1530 train_loss:3.6014 train_time:100560ms step_avg:167.32ms
step:612/1530 train_loss:3.5789 train_time:100730ms step_avg:167.33ms
step:613/1530 train_loss:3.7688 train_time:100903ms step_avg:167.34ms
step:614/1530 train_loss:3.7107 train_time:101074ms step_avg:167.34ms
step:615/1530 train_loss:3.7007 train_time:101245ms step_avg:167.35ms
step:616/1530 train_loss:3.6341 train_time:101416ms step_avg:167.35ms
step:617/1530 train_loss:3.5640 train_time:101588ms step_avg:167.36ms
step:618/1530 train_loss:3.6899 train_time:101759ms step_avg:167.37ms
step:619/1530 train_loss:3.5552 train_time:101928ms step_avg:167.37ms
step:620/1530 train_loss:3.5946 train_time:102102ms step_avg:167.38ms
step:621/1530 train_loss:3.9342 train_time:102273ms step_avg:167.39ms
step:622/1530 train_loss:3.5786 train_time:102445ms step_avg:167.39ms
step:623/1530 train_loss:3.6044 train_time:102619ms step_avg:167.40ms
step:624/1530 train_loss:3.6932 train_time:102790ms step_avg:167.41ms
step:625/1530 train_loss:3.7079 train_time:102960ms step_avg:167.41ms
step:625/1530 val_loss:3.6267 train_time:103008ms step_avg:167.49ms
step:626/1530 train_loss:3.7456 train_time:103131ms step_avg:167.42ms
step:627/1530 train_loss:3.7184 train_time:103302ms step_avg:167.43ms
step:628/1530 train_loss:3.7642 train_time:103472ms step_avg:167.43ms
step:629/1530 train_loss:3.5960 train_time:103643ms step_avg:167.44ms
step:630/1530 train_loss:3.7309 train_time:103814ms step_avg:167.44ms
step:631/1530 train_loss:3.7415 train_time:103983ms step_avg:167.45ms
step:632/1530 train_loss:3.6536 train_time:104155ms step_avg:167.45ms
step:633/1530 train_loss:3.6129 train_time:104327ms step_avg:167.46ms
step:634/1530 train_loss:3.7006 train_time:104499ms step_avg:167.47ms
step:635/1530 train_loss:3.9514 train_time:104668ms step_avg:167.47ms
step:636/1530 train_loss:3.5546 train_time:104840ms step_avg:167.48ms
step:637/1530 train_loss:3.3557 train_time:105011ms step_avg:167.48ms
step:638/1530 train_loss:3.5985 train_time:105181ms step_avg:167.49ms
step:639/1530 train_loss:3.6367 train_time:105350ms step_avg:167.49ms
step:640/1530 train_loss:3.5681 train_time:105522ms step_avg:167.50ms
step:641/1530 train_loss:3.5870 train_time:105693ms step_avg:167.50ms
step:642/1530 train_loss:3.6290 train_time:105863ms step_avg:167.50ms
step:643/1530 train_loss:3.5944 train_time:106035ms step_avg:167.51ms
step:644/1530 train_loss:3.5668 train_time:106205ms step_avg:167.52ms
step:645/1530 train_loss:3.7782 train_time:106376ms step_avg:167.52ms
step:646/1530 train_loss:3.6790 train_time:106546ms step_avg:167.53ms
step:647/1530 train_loss:3.6679 train_time:106717ms step_avg:167.53ms
step:648/1530 train_loss:3.7094 train_time:106887ms step_avg:167.53ms
step:649/1530 train_loss:3.7686 train_time:107058ms step_avg:167.54ms
step:650/1530 train_loss:3.6270 train_time:107228ms step_avg:167.54ms
step:651/1530 train_loss:3.7693 train_time:107400ms step_avg:167.55ms
step:652/1530 train_loss:3.5912 train_time:107573ms step_avg:167.56ms
step:653/1530 train_loss:3.6624 train_time:107742ms step_avg:167.56ms
step:654/1530 train_loss:3.4307 train_time:107913ms step_avg:167.57ms
step:655/1530 train_loss:3.5861 train_time:108083ms step_avg:167.57ms
step:656/1530 train_loss:3.5750 train_time:108254ms step_avg:167.58ms
step:657/1530 train_loss:3.5009 train_time:108425ms step_avg:167.58ms
step:658/1530 train_loss:3.6874 train_time:108595ms step_avg:167.59ms
step:659/1530 train_loss:3.5884 train_time:108766ms step_avg:167.59ms
step:660/1530 train_loss:3.6900 train_time:108939ms step_avg:167.60ms
step:661/1530 train_loss:3.7552 train_time:109109ms step_avg:167.60ms
step:662/1530 train_loss:3.6715 train_time:109277ms step_avg:167.60ms
step:663/1530 train_loss:3.5559 train_time:109448ms step_avg:167.61ms
step:664/1530 train_loss:3.6115 train_time:109620ms step_avg:167.62ms
step:665/1530 train_loss:3.5011 train_time:109791ms step_avg:167.62ms
step:666/1530 train_loss:3.7877 train_time:109961ms step_avg:167.62ms
step:667/1530 train_loss:3.6118 train_time:110133ms step_avg:167.63ms
step:668/1530 train_loss:3.6552 train_time:110303ms step_avg:167.63ms
step:669/1530 train_loss:3.4951 train_time:110474ms step_avg:167.64ms
step:670/1530 train_loss:3.6005 train_time:110643ms step_avg:167.64ms
step:671/1530 train_loss:3.5653 train_time:110814ms step_avg:167.65ms
step:672/1530 train_loss:3.5734 train_time:110987ms step_avg:167.65ms
step:673/1530 train_loss:3.8543 train_time:111157ms step_avg:167.66ms
step:674/1530 train_loss:3.6239 train_time:111328ms step_avg:167.66ms
step:675/1530 train_loss:3.7177 train_time:111500ms step_avg:167.67ms
step:676/1530 train_loss:3.4936 train_time:111671ms step_avg:167.67ms
step:677/1530 train_loss:3.6049 train_time:111843ms step_avg:167.68ms
step:678/1530 train_loss:3.5607 train_time:112016ms step_avg:167.69ms
step:679/1530 train_loss:3.6786 train_time:112186ms step_avg:167.69ms
step:680/1530 train_loss:3.5902 train_time:112357ms step_avg:167.70ms
step:681/1530 train_loss:3.6206 train_time:112529ms step_avg:167.70ms
step:682/1530 train_loss:3.6715 train_time:112705ms step_avg:167.72ms
step:683/1530 train_loss:3.7401 train_time:112879ms step_avg:167.72ms
step:684/1530 train_loss:3.6476 train_time:113049ms step_avg:167.73ms
step:685/1530 train_loss:3.6892 train_time:113223ms step_avg:167.74ms
step:686/1530 train_loss:3.6388 train_time:113395ms step_avg:167.74ms
step:687/1530 train_loss:3.6695 train_time:113567ms step_avg:167.75ms
step:688/1530 train_loss:3.2062 train_time:113744ms step_avg:167.76ms
step:689/1530 train_loss:3.4144 train_time:113919ms step_avg:167.77ms
step:690/1530 train_loss:3.5447 train_time:114092ms step_avg:167.78ms
step:691/1530 train_loss:3.4138 train_time:114263ms step_avg:167.79ms
step:692/1530 train_loss:3.6290 train_time:114436ms step_avg:167.79ms
step:693/1530 train_loss:3.6500 train_time:114609ms step_avg:167.80ms
step:694/1530 train_loss:3.5575 train_time:114781ms step_avg:167.81ms
step:695/1530 train_loss:3.5362 train_time:114952ms step_avg:167.81ms
step:696/1530 train_loss:3.8559 train_time:115125ms step_avg:167.82ms
step:697/1530 train_loss:3.5870 train_time:115298ms step_avg:167.83ms
step:698/1530 train_loss:3.6456 train_time:115471ms step_avg:167.84ms
step:699/1530 train_loss:3.7785 train_time:115646ms step_avg:167.85ms
step:700/1530 train_loss:3.5703 train_time:115818ms step_avg:167.85ms
step:701/1530 train_loss:3.5487 train_time:115989ms step_avg:167.86ms
step:702/1530 train_loss:3.5153 train_time:116163ms step_avg:167.87ms
step:703/1530 train_loss:3.5019 train_time:116336ms step_avg:167.87ms
step:704/1530 train_loss:3.5735 train_time:116508ms step_avg:167.88ms
step:705/1530 train_loss:3.5595 train_time:116685ms step_avg:167.89ms
step:706/1530 train_loss:3.5778 train_time:116862ms step_avg:167.90ms
step:707/1530 train_loss:3.6494 train_time:117036ms step_avg:167.91ms
step:708/1530 train_loss:3.6084 train_time:117208ms step_avg:167.92ms
step:709/1530 train_loss:3.5858 train_time:117382ms step_avg:167.93ms
step:710/1530 train_loss:3.5423 train_time:117553ms step_avg:167.93ms
step:711/1530 train_loss:3.5908 train_time:117726ms step_avg:167.94ms
step:712/1530 train_loss:3.6491 train_time:117902ms step_avg:167.95ms
step:713/1530 train_loss:3.6549 train_time:118077ms step_avg:167.96ms
step:714/1530 train_loss:3.5626 train_time:118249ms step_avg:167.97ms
step:715/1530 train_loss:3.5703 train_time:118422ms step_avg:167.97ms
step:716/1530 train_loss:3.5915 train_time:118594ms step_avg:167.98ms
step:717/1530 train_loss:3.7090 train_time:118768ms step_avg:167.99ms
step:718/1530 train_loss:3.5978 train_time:118941ms step_avg:168.00ms
step:719/1530 train_loss:3.6818 train_time:119112ms step_avg:168.00ms
step:720/1530 train_loss:3.8455 train_time:119285ms step_avg:168.01ms
step:721/1530 train_loss:3.4679 train_time:119458ms step_avg:168.01ms
step:722/1530 train_loss:3.7408 train_time:119630ms step_avg:168.02ms
step:723/1530 train_loss:3.7739 train_time:119801ms step_avg:168.02ms
step:724/1530 train_loss:3.5751 train_time:119975ms step_avg:168.03ms
step:725/1530 train_loss:3.6518 train_time:120148ms step_avg:168.04ms
step:726/1530 train_loss:3.5331 train_time:120322ms step_avg:168.05ms
step:727/1530 train_loss:3.5837 train_time:120498ms step_avg:168.06ms
step:728/1530 train_loss:3.7364 train_time:120669ms step_avg:168.06ms
step:729/1530 train_loss:3.6772 train_time:120843ms step_avg:168.07ms
step:730/1530 train_loss:3.6722 train_time:121016ms step_avg:168.08ms
step:731/1530 train_loss:3.5607 train_time:121189ms step_avg:168.08ms
step:732/1530 train_loss:3.5972 train_time:121360ms step_avg:168.09ms
step:733/1530 train_loss:3.8378 train_time:121535ms step_avg:168.10ms
step:734/1530 train_loss:3.5614 train_time:121709ms step_avg:168.11ms
step:735/1530 train_loss:3.6236 train_time:121882ms step_avg:168.11ms
step:736/1530 train_loss:3.7440 train_time:122055ms step_avg:168.12ms
step:737/1530 train_loss:3.6756 train_time:122227ms step_avg:168.13ms
step:738/1530 train_loss:3.6067 train_time:122399ms step_avg:168.13ms
step:739/1530 train_loss:3.5093 train_time:122570ms step_avg:168.13ms
step:740/1530 train_loss:4.1096 train_time:122747ms step_avg:168.15ms
step:741/1530 train_loss:3.4945 train_time:122920ms step_avg:168.15ms
step:742/1530 train_loss:3.5572 train_time:123092ms step_avg:168.16ms
step:743/1530 train_loss:3.5835 train_time:123264ms step_avg:168.16ms
step:744/1530 train_loss:3.6492 train_time:123437ms step_avg:168.17ms
step:745/1530 train_loss:3.5898 train_time:123610ms step_avg:168.18ms
step:746/1530 train_loss:3.5989 train_time:123782ms step_avg:168.18ms
step:747/1530 train_loss:3.6485 train_time:123956ms step_avg:168.19ms
step:748/1530 train_loss:3.5662 train_time:124132ms step_avg:168.20ms
step:749/1530 train_loss:3.5658 train_time:124305ms step_avg:168.21ms
step:750/1530 train_loss:3.6001 train_time:124476ms step_avg:168.21ms
step:750/1530 val_loss:3.5680 train_time:124525ms step_avg:168.28ms
step:751/1530 train_loss:3.5668 train_time:124651ms step_avg:168.22ms
step:752/1530 train_loss:3.6171 train_time:124823ms step_avg:168.22ms
step:753/1530 train_loss:3.6246 train_time:124995ms step_avg:168.23ms
step:754/1530 train_loss:3.5955 train_time:125169ms step_avg:168.24ms
step:755/1530 train_loss:3.6863 train_time:125468ms step_avg:168.41ms
step:756/1530 train_loss:3.4622 train_time:125652ms step_avg:168.43ms
step:757/1530 train_loss:3.7236 train_time:125824ms step_avg:168.44ms
step:758/1530 train_loss:3.6525 train_time:125995ms step_avg:168.44ms
step:759/1530 train_loss:3.5892 train_time:126322ms step_avg:168.65ms
step:760/1530 train_loss:3.7101 train_time:126494ms step_avg:168.66ms
step:761/1530 train_loss:3.4058 train_time:126667ms step_avg:168.66ms
step:762/1530 train_loss:3.5566 train_time:126838ms step_avg:168.67ms
step:763/1530 train_loss:3.6725 train_time:127011ms step_avg:168.67ms
step:764/1530 train_loss:3.3212 train_time:127182ms step_avg:168.68ms
step:765/1530 train_loss:3.7360 train_time:127356ms step_avg:168.68ms
step:766/1530 train_loss:3.5795 train_time:127530ms step_avg:168.69ms
step:767/1530 train_loss:3.5683 train_time:127704ms step_avg:168.70ms
step:768/1530 train_loss:3.5699 train_time:127878ms step_avg:168.70ms
step:769/1530 train_loss:3.5933 train_time:128052ms step_avg:168.71ms
step:770/1530 train_loss:3.6451 train_time:128223ms step_avg:168.71ms
step:771/1530 train_loss:3.8862 train_time:128393ms step_avg:168.72ms
step:772/1530 train_loss:3.4564 train_time:128567ms step_avg:168.72ms
step:773/1530 train_loss:3.6284 train_time:128737ms step_avg:168.72ms
step:774/1530 train_loss:3.6455 train_time:128910ms step_avg:168.73ms
step:775/1530 train_loss:3.6087 train_time:129080ms step_avg:168.73ms
step:776/1530 train_loss:3.4339 train_time:129255ms step_avg:168.74ms
step:777/1530 train_loss:3.3847 train_time:129428ms step_avg:168.75ms
step:778/1530 train_loss:3.4941 train_time:129599ms step_avg:168.75ms
step:779/1530 train_loss:3.5783 train_time:129772ms step_avg:168.75ms
step:780/1530 train_loss:3.5886 train_time:129946ms step_avg:168.76ms
step:781/1530 train_loss:3.6771 train_time:130117ms step_avg:168.76ms
step:782/1530 train_loss:3.5926 train_time:130291ms step_avg:168.77ms
step:783/1530 train_loss:3.5708 train_time:130462ms step_avg:168.77ms
step:784/1530 train_loss:3.6073 train_time:130634ms step_avg:168.78ms
step:785/1530 train_loss:3.5635 train_time:130808ms step_avg:168.78ms
step:786/1530 train_loss:3.4425 train_time:130980ms step_avg:168.79ms
step:787/1530 train_loss:3.7248 train_time:131153ms step_avg:168.79ms
step:788/1530 train_loss:3.5035 train_time:131326ms step_avg:168.80ms
step:789/1530 train_loss:3.5530 train_time:131496ms step_avg:168.80ms
step:790/1530 train_loss:3.6322 train_time:131670ms step_avg:168.81ms
step:791/1530 train_loss:3.7725 train_time:131847ms step_avg:168.82ms
step:792/1530 train_loss:3.7554 train_time:132018ms step_avg:168.82ms
step:793/1530 train_loss:3.4554 train_time:132190ms step_avg:168.83ms
step:794/1530 train_loss:3.5980 train_time:132362ms step_avg:168.83ms
step:795/1530 train_loss:3.6762 train_time:132538ms step_avg:168.84ms
step:796/1530 train_loss:3.7629 train_time:132715ms step_avg:168.85ms
step:797/1530 train_loss:3.5291 train_time:132889ms step_avg:168.85ms
step:798/1530 train_loss:3.6457 train_time:133063ms step_avg:168.86ms
step:799/1530 train_loss:3.5351 train_time:133241ms step_avg:168.87ms
step:800/1530 train_loss:3.5291 train_time:133414ms step_avg:168.88ms
step:801/1530 train_loss:3.6276 train_time:133590ms step_avg:168.89ms
step:802/1530 train_loss:3.4980 train_time:133768ms step_avg:168.90ms
step:803/1530 train_loss:3.4841 train_time:133942ms step_avg:168.91ms
step:804/1530 train_loss:3.6263 train_time:134115ms step_avg:168.91ms
step:805/1530 train_loss:3.5222 train_time:134292ms step_avg:168.92ms
step:806/1530 train_loss:3.5656 train_time:134465ms step_avg:168.93ms
step:807/1530 train_loss:3.6441 train_time:134637ms step_avg:168.93ms
step:808/1530 train_loss:3.5453 train_time:134813ms step_avg:168.94ms
step:809/1530 train_loss:3.4864 train_time:134986ms step_avg:168.94ms
step:810/1530 train_loss:3.5643 train_time:135158ms step_avg:168.95ms
step:811/1530 train_loss:3.5835 train_time:135332ms step_avg:168.95ms
step:812/1530 train_loss:3.6030 train_time:135505ms step_avg:168.96ms
step:813/1530 train_loss:3.6286 train_time:135676ms step_avg:168.96ms
step:814/1530 train_loss:3.5656 train_time:135852ms step_avg:168.97ms
step:815/1530 train_loss:3.5664 train_time:136026ms step_avg:168.98ms
step:816/1530 train_loss:3.6851 train_time:136201ms step_avg:168.98ms
step:817/1530 train_loss:3.7724 train_time:136375ms step_avg:168.99ms
step:818/1530 train_loss:3.5327 train_time:136548ms step_avg:168.99ms
step:819/1530 train_loss:3.7251 train_time:136723ms step_avg:169.00ms
step:820/1530 train_loss:3.4947 train_time:136899ms step_avg:169.01ms
step:821/1530 train_loss:3.5663 train_time:137072ms step_avg:169.02ms
step:822/1530 train_loss:3.6954 train_time:137247ms step_avg:169.02ms
step:823/1530 train_loss:3.5719 train_time:137420ms step_avg:169.03ms
step:824/1530 train_loss:3.5152 train_time:137595ms step_avg:169.04ms
step:825/1530 train_loss:3.6196 train_time:137771ms step_avg:169.04ms
step:826/1530 train_loss:3.4811 train_time:137946ms step_avg:169.05ms
step:827/1530 train_loss:3.7352 train_time:138120ms step_avg:169.06ms
step:828/1530 train_loss:3.6234 train_time:138293ms step_avg:169.06ms
step:829/1530 train_loss:3.6340 train_time:138469ms step_avg:169.07ms
step:830/1530 train_loss:3.5376 train_time:138644ms step_avg:169.08ms
step:831/1530 train_loss:3.6059 train_time:138817ms step_avg:169.08ms
step:832/1530 train_loss:3.5179 train_time:138993ms step_avg:169.09ms
step:833/1530 train_loss:3.6548 train_time:139171ms step_avg:169.10ms
step:834/1530 train_loss:3.4819 train_time:139344ms step_avg:169.11ms
step:835/1530 train_loss:3.4608 train_time:139517ms step_avg:169.11ms
step:836/1530 train_loss:3.7192 train_time:139694ms step_avg:169.12ms
step:837/1530 train_loss:3.4024 train_time:139869ms step_avg:169.13ms
step:838/1530 train_loss:3.5914 train_time:140042ms step_avg:169.13ms
step:839/1530 train_loss:3.4255 train_time:140217ms step_avg:169.14ms
step:840/1530 train_loss:3.4712 train_time:140390ms step_avg:169.14ms
step:841/1530 train_loss:3.5664 train_time:140564ms step_avg:169.15ms
step:842/1530 train_loss:3.5851 train_time:140739ms step_avg:169.16ms
step:843/1530 train_loss:3.5648 train_time:140912ms step_avg:169.16ms
step:844/1530 train_loss:3.4346 train_time:141084ms step_avg:169.17ms
step:845/1530 train_loss:3.6653 train_time:141258ms step_avg:169.17ms
step:846/1530 train_loss:3.5191 train_time:141435ms step_avg:169.18ms
step:847/1530 train_loss:3.5000 train_time:141610ms step_avg:169.19ms
step:848/1530 train_loss:3.6398 train_time:141781ms step_avg:169.19ms
step:849/1530 train_loss:3.4937 train_time:141956ms step_avg:169.20ms
step:850/1530 train_loss:3.4455 train_time:142130ms step_avg:169.20ms
step:851/1530 train_loss:3.7440 train_time:142302ms step_avg:169.21ms
step:852/1530 train_loss:3.4409 train_time:142476ms step_avg:169.21ms
step:853/1530 train_loss:3.5644 train_time:142649ms step_avg:169.22ms
step:854/1530 train_loss:3.6538 train_time:142823ms step_avg:169.22ms
step:855/1530 train_loss:3.5151 train_time:142996ms step_avg:169.23ms
step:856/1530 train_loss:3.5468 train_time:143172ms step_avg:169.23ms
step:857/1530 train_loss:3.6065 train_time:143345ms step_avg:169.24ms
step:858/1530 train_loss:3.4740 train_time:143520ms step_avg:169.25ms
step:859/1530 train_loss:3.5676 train_time:143695ms step_avg:169.25ms
step:860/1530 train_loss:3.5819 train_time:143867ms step_avg:169.25ms
step:861/1530 train_loss:3.6396 train_time:144042ms step_avg:169.26ms
step:862/1530 train_loss:3.6077 train_time:144219ms step_avg:169.27ms
step:863/1530 train_loss:3.5715 train_time:144395ms step_avg:169.28ms
step:864/1530 train_loss:3.3870 train_time:144570ms step_avg:169.29ms
step:865/1530 train_loss:3.5996 train_time:144741ms step_avg:169.29ms
step:866/1530 train_loss:3.9140 train_time:144917ms step_avg:169.30ms
step:867/1530 train_loss:3.4608 train_time:145090ms step_avg:169.30ms
step:868/1530 train_loss:3.6428 train_time:145261ms step_avg:169.30ms
step:869/1530 train_loss:3.6152 train_time:145435ms step_avg:169.31ms
step:870/1530 train_loss:3.4511 train_time:145611ms step_avg:169.31ms
step:871/1530 train_loss:3.4003 train_time:145783ms step_avg:169.32ms
step:872/1530 train_loss:3.6467 train_time:145960ms step_avg:169.33ms
step:873/1530 train_loss:3.4625 train_time:146134ms step_avg:169.33ms
step:874/1530 train_loss:3.2288 train_time:146313ms step_avg:169.34ms
step:875/1530 train_loss:3.6336 train_time:146486ms step_avg:169.35ms
step:875/1530 val_loss:3.5213 train_time:146535ms step_avg:169.41ms
step:876/1530 train_loss:3.4408 train_time:146659ms step_avg:169.35ms
step:877/1530 train_loss:3.6239 train_time:146835ms step_avg:169.36ms
step:878/1530 train_loss:3.4705 train_time:147012ms step_avg:169.37ms
step:879/1530 train_loss:3.6555 train_time:147183ms step_avg:169.37ms
step:880/1530 train_loss:3.3143 train_time:147356ms step_avg:169.37ms
step:881/1530 train_loss:3.4770 train_time:147529ms step_avg:169.38ms
step:882/1530 train_loss:3.7007 train_time:147702ms step_avg:169.38ms
step:883/1530 train_loss:3.8424 train_time:147875ms step_avg:169.39ms
step:884/1530 train_loss:3.5705 train_time:148051ms step_avg:169.39ms
step:885/1530 train_loss:3.4975 train_time:148224ms step_avg:169.40ms
step:886/1530 train_loss:3.5729 train_time:148398ms step_avg:169.40ms
step:887/1530 train_loss:4.0945 train_time:148574ms step_avg:169.41ms
step:888/1530 train_loss:3.8482 train_time:148754ms step_avg:169.42ms
step:889/1530 train_loss:3.5235 train_time:148927ms step_avg:169.43ms
step:890/1530 train_loss:3.5353 train_time:149099ms step_avg:169.43ms
step:891/1530 train_loss:3.3623 train_time:149275ms step_avg:169.44ms
step:892/1530 train_loss:3.7175 train_time:149448ms step_avg:169.44ms
step:893/1530 train_loss:3.4204 train_time:149620ms step_avg:169.45ms
step:894/1530 train_loss:3.6521 train_time:149797ms step_avg:169.45ms
step:895/1530 train_loss:3.6811 train_time:149973ms step_avg:169.46ms
step:896/1530 train_loss:3.5011 train_time:150145ms step_avg:169.46ms
step:897/1530 train_loss:3.5420 train_time:150319ms step_avg:169.47ms
step:898/1530 train_loss:3.5903 train_time:150496ms step_avg:169.48ms
step:899/1530 train_loss:3.4713 train_time:150668ms step_avg:169.48ms
step:900/1530 train_loss:3.4228 train_time:150840ms step_avg:169.48ms
step:901/1530 train_loss:3.6225 train_time:151014ms step_avg:169.49ms
step:902/1530 train_loss:3.6374 train_time:151188ms step_avg:169.49ms
step:903/1530 train_loss:3.5491 train_time:151364ms step_avg:169.50ms
step:904/1530 train_loss:3.4980 train_time:151536ms step_avg:169.50ms
step:905/1530 train_loss:3.5004 train_time:151709ms step_avg:169.51ms
step:906/1530 train_loss:3.7068 train_time:151883ms step_avg:169.51ms
step:907/1530 train_loss:3.5213 train_time:152057ms step_avg:169.52ms
step:908/1530 train_loss:3.5705 train_time:152229ms step_avg:169.52ms
step:909/1530 train_loss:3.4593 train_time:152405ms step_avg:169.53ms
step:910/1530 train_loss:3.5290 train_time:152586ms step_avg:169.54ms
step:911/1530 train_loss:3.6438 train_time:152762ms step_avg:169.55ms
step:912/1530 train_loss:3.6051 train_time:152939ms step_avg:169.56ms
step:913/1530 train_loss:3.4733 train_time:153120ms step_avg:169.57ms
step:914/1530 train_loss:3.7479 train_time:153298ms step_avg:169.58ms
step:915/1530 train_loss:3.5344 train_time:153479ms step_avg:169.59ms
step:916/1530 train_loss:3.6223 train_time:153655ms step_avg:169.60ms
step:917/1530 train_loss:3.6074 train_time:153828ms step_avg:169.60ms
step:918/1530 train_loss:4.8138 train_time:154007ms step_avg:169.61ms
step:919/1530 train_loss:3.5058 train_time:154186ms step_avg:169.62ms
step:920/1530 train_loss:3.5913 train_time:154360ms step_avg:169.63ms
step:921/1530 train_loss:3.5543 train_time:154538ms step_avg:169.64ms
step:922/1530 train_loss:3.5798 train_time:154717ms step_avg:169.65ms
step:923/1530 train_loss:3.6138 train_time:154894ms step_avg:169.65ms
step:924/1530 train_loss:3.6770 train_time:155070ms step_avg:169.66ms
step:925/1530 train_loss:3.6498 train_time:155242ms step_avg:169.66ms
step:926/1530 train_loss:3.5631 train_time:155416ms step_avg:169.67ms
step:927/1530 train_loss:3.5584 train_time:155588ms step_avg:169.67ms
step:928/1530 train_loss:3.7841 train_time:155765ms step_avg:169.68ms
step:929/1530 train_loss:3.6108 train_time:155940ms step_avg:169.68ms
step:930/1530 train_loss:3.4027 train_time:156117ms step_avg:169.69ms
step:931/1530 train_loss:3.4964 train_time:156292ms step_avg:169.70ms
step:932/1530 train_loss:3.6482 train_time:156469ms step_avg:169.71ms
step:933/1530 train_loss:3.3677 train_time:156644ms step_avg:169.71ms
step:934/1530 train_loss:3.5888 train_time:156821ms step_avg:169.72ms
step:935/1530 train_loss:3.4448 train_time:157001ms step_avg:169.73ms
step:936/1530 train_loss:3.5241 train_time:157180ms step_avg:169.74ms
step:937/1530 train_loss:3.6217 train_time:157358ms step_avg:169.75ms
step:938/1530 train_loss:3.5454 train_time:157533ms step_avg:169.76ms
step:939/1530 train_loss:3.6808 train_time:157712ms step_avg:169.77ms
step:940/1530 train_loss:3.4827 train_time:157888ms step_avg:169.77ms
step:941/1530 train_loss:3.5497 train_time:158062ms step_avg:169.78ms
step:942/1530 train_loss:3.3598 train_time:158238ms step_avg:169.78ms
step:943/1530 train_loss:3.7130 train_time:158421ms step_avg:169.80ms
step:944/1530 train_loss:3.4026 train_time:158730ms step_avg:169.95ms
step:945/1530 train_loss:3.4291 train_time:158913ms step_avg:169.96ms
step:946/1530 train_loss:5.0753 train_time:159096ms step_avg:169.97ms
step:947/1530 train_loss:3.5979 train_time:159274ms step_avg:169.98ms
step:948/1530 train_loss:3.4856 train_time:159449ms step_avg:169.99ms
step:949/1530 train_loss:3.3787 train_time:159777ms step_avg:170.16ms
step:950/1530 train_loss:3.4482 train_time:159950ms step_avg:170.16ms
step:951/1530 train_loss:3.4098 train_time:160129ms step_avg:170.17ms
step:952/1530 train_loss:3.4802 train_time:160304ms step_avg:170.17ms
step:953/1530 train_loss:3.5691 train_time:160483ms step_avg:170.18ms
step:954/1530 train_loss:3.4470 train_time:160662ms step_avg:170.19ms
step:955/1530 train_loss:3.4783 train_time:160837ms step_avg:170.20ms
step:956/1530 train_loss:3.4442 train_time:161014ms step_avg:170.21ms
step:957/1530 train_loss:3.4923 train_time:161194ms step_avg:170.22ms
step:958/1530 train_loss:3.5105 train_time:161374ms step_avg:170.23ms
step:959/1530 train_loss:3.5146 train_time:161550ms step_avg:170.23ms
step:960/1530 train_loss:3.4073 train_time:161726ms step_avg:170.24ms
step:961/1530 train_loss:3.6471 train_time:161901ms step_avg:170.24ms
step:962/1530 train_loss:3.5921 train_time:162076ms step_avg:170.25ms
step:963/1530 train_loss:3.6021 train_time:162255ms step_avg:170.26ms
step:964/1530 train_loss:3.4304 train_time:162434ms step_avg:170.27ms
step:965/1530 train_loss:3.4807 train_time:162608ms step_avg:170.27ms
step:966/1530 train_loss:3.7044 train_time:162782ms step_avg:170.27ms
step:967/1530 train_loss:3.5214 train_time:162955ms step_avg:170.28ms
step:968/1530 train_loss:3.5147 train_time:163131ms step_avg:170.28ms
step:969/1530 train_loss:3.5895 train_time:163304ms step_avg:170.29ms
step:970/1530 train_loss:3.3755 train_time:163478ms step_avg:170.29ms
step:971/1530 train_loss:3.5336 train_time:163652ms step_avg:170.29ms
step:972/1530 train_loss:3.4825 train_time:163825ms step_avg:170.30ms
step:973/1530 train_loss:3.5462 train_time:163998ms step_avg:170.30ms
step:974/1530 train_loss:3.5935 train_time:164176ms step_avg:170.31ms
step:975/1530 train_loss:3.4600 train_time:164352ms step_avg:170.31ms
step:976/1530 train_loss:3.6728 train_time:164527ms step_avg:170.32ms
step:977/1530 train_loss:3.5773 train_time:164700ms step_avg:170.32ms
step:978/1530 train_loss:3.3633 train_time:164877ms step_avg:170.33ms
step:979/1530 train_loss:3.6186 train_time:165053ms step_avg:170.33ms
step:980/1530 train_loss:3.4108 train_time:165229ms step_avg:170.34ms
step:981/1530 train_loss:3.5789 train_time:165408ms step_avg:170.35ms
step:982/1530 train_loss:3.5449 train_time:165581ms step_avg:170.35ms
step:983/1530 train_loss:3.5199 train_time:165757ms step_avg:170.36ms
step:984/1530 train_loss:3.4957 train_time:165932ms step_avg:170.36ms
step:985/1530 train_loss:3.5705 train_time:166107ms step_avg:170.37ms
step:986/1530 train_loss:3.4206 train_time:166282ms step_avg:170.37ms
step:987/1530 train_loss:3.4894 train_time:166455ms step_avg:170.37ms
step:988/1530 train_loss:3.4595 train_time:166628ms step_avg:170.38ms
step:989/1530 train_loss:3.4206 train_time:166801ms step_avg:170.38ms
step:990/1530 train_loss:3.6645 train_time:166978ms step_avg:170.39ms
step:991/1530 train_loss:3.4693 train_time:167152ms step_avg:170.39ms
step:992/1530 train_loss:3.4432 train_time:167331ms step_avg:170.40ms
step:993/1530 train_loss:3.4990 train_time:167510ms step_avg:170.41ms
step:994/1530 train_loss:3.5993 train_time:167684ms step_avg:170.41ms
step:995/1530 train_loss:3.5354 train_time:167857ms step_avg:170.41ms
step:996/1530 train_loss:3.4591 train_time:168030ms step_avg:170.42ms
step:997/1530 train_loss:3.7525 train_time:168204ms step_avg:170.42ms
step:998/1530 train_loss:3.4406 train_time:168377ms step_avg:170.42ms
step:999/1530 train_loss:3.5902 train_time:168553ms step_avg:170.43ms
step:1000/1530 train_loss:3.4430 train_time:168731ms step_avg:170.44ms
step:1000/1530 val_loss:3.4684 train_time:168782ms step_avg:170.49ms
step:1001/1530 train_loss:3.4941 train_time:168909ms step_avg:170.44ms
step:1002/1530 train_loss:3.3768 train_time:169082ms step_avg:170.45ms
step:1003/1530 train_loss:3.5582 train_time:169258ms step_avg:170.45ms
step:1004/1530 train_loss:3.6102 train_time:169434ms step_avg:170.46ms
step:1005/1530 train_loss:3.3901 train_time:169610ms step_avg:170.46ms
step:1006/1530 train_loss:3.4656 train_time:169788ms step_avg:170.47ms
step:1007/1530 train_loss:3.4407 train_time:169961ms step_avg:170.47ms
step:1008/1530 train_loss:3.5633 train_time:170138ms step_avg:170.48ms
step:1009/1530 train_loss:3.6657 train_time:170317ms step_avg:170.49ms
step:1010/1530 train_loss:3.5650 train_time:170491ms step_avg:170.49ms
step:1011/1530 train_loss:3.5369 train_time:170664ms step_avg:170.49ms
step:1012/1530 train_loss:3.3928 train_time:170838ms step_avg:170.50ms
step:1013/1530 train_loss:3.5374 train_time:171014ms step_avg:170.50ms
step:1014/1530 train_loss:3.6246 train_time:171191ms step_avg:170.51ms
step:1015/1530 train_loss:3.3301 train_time:171369ms step_avg:170.52ms
step:1016/1530 train_loss:3.4101 train_time:171544ms step_avg:170.52ms
step:1017/1530 train_loss:3.3969 train_time:171720ms step_avg:170.53ms
step:1018/1530 train_loss:3.3950 train_time:171895ms step_avg:170.53ms
step:1019/1530 train_loss:3.5242 train_time:172071ms step_avg:170.54ms
step:1020/1530 train_loss:3.3863 train_time:172249ms step_avg:170.54ms
step:1021/1530 train_loss:3.3554 train_time:172424ms step_avg:170.55ms
step:1022/1530 train_loss:3.4773 train_time:172600ms step_avg:170.55ms
step:1023/1530 train_loss:3.5030 train_time:172776ms step_avg:170.56ms
step:1024/1530 train_loss:3.4832 train_time:172953ms step_avg:170.56ms
step:1025/1530 train_loss:3.4846 train_time:173132ms step_avg:170.57ms
step:1026/1530 train_loss:3.6191 train_time:173309ms step_avg:170.58ms
step:1027/1530 train_loss:3.3237 train_time:173484ms step_avg:170.58ms
step:1028/1530 train_loss:3.3946 train_time:173665ms step_avg:170.59ms
step:1029/1530 train_loss:3.3099 train_time:173846ms step_avg:170.60ms
step:1030/1530 train_loss:3.5389 train_time:174020ms step_avg:170.61ms
step:1031/1530 train_loss:3.5078 train_time:174198ms step_avg:170.61ms
step:1032/1530 train_loss:3.6879 train_time:174379ms step_avg:170.63ms
step:1033/1530 train_loss:3.4904 train_time:174554ms step_avg:170.63ms
step:1034/1530 train_loss:3.3980 train_time:174733ms step_avg:170.64ms
step:1035/1530 train_loss:3.4437 train_time:174912ms step_avg:170.65ms
step:1036/1530 train_loss:3.4831 train_time:175091ms step_avg:170.65ms
step:1037/1530 train_loss:3.7902 train_time:175269ms step_avg:170.66ms
step:1038/1530 train_loss:3.6167 train_time:175445ms step_avg:170.67ms
step:1039/1530 train_loss:3.5062 train_time:175627ms step_avg:170.68ms
step:1040/1530 train_loss:3.4102 train_time:175803ms step_avg:170.68ms
step:1041/1530 train_loss:3.4882 train_time:175980ms step_avg:170.69ms
step:1042/1530 train_loss:3.5223 train_time:176153ms step_avg:170.69ms
step:1043/1530 train_loss:3.4474 train_time:176330ms step_avg:170.70ms
step:1044/1530 train_loss:3.4557 train_time:176507ms step_avg:170.70ms
step:1045/1530 train_loss:3.5172 train_time:176686ms step_avg:170.71ms
step:1046/1530 train_loss:3.4246 train_time:176860ms step_avg:170.71ms
step:1047/1530 train_loss:3.6369 train_time:177036ms step_avg:170.72ms
step:1048/1530 train_loss:3.5009 train_time:177213ms step_avg:170.73ms
step:1049/1530 train_loss:3.4040 train_time:177389ms step_avg:170.73ms
step:1050/1530 train_loss:3.3940 train_time:177566ms step_avg:170.74ms
step:1051/1530 train_loss:3.4947 train_time:177743ms step_avg:170.74ms
step:1052/1530 train_loss:3.3681 train_time:177921ms step_avg:170.75ms
step:1053/1530 train_loss:3.6921 train_time:178098ms step_avg:170.76ms
step:1054/1530 train_loss:3.5411 train_time:178278ms step_avg:170.76ms
step:1055/1530 train_loss:3.3850 train_time:178452ms step_avg:170.77ms
step:1056/1530 train_loss:3.4972 train_time:178629ms step_avg:170.77ms
step:1057/1530 train_loss:3.5764 train_time:178808ms step_avg:170.78ms
step:1058/1530 train_loss:3.3061 train_time:178985ms step_avg:170.79ms
step:1059/1530 train_loss:3.3773 train_time:179166ms step_avg:170.80ms
step:1060/1530 train_loss:3.4431 train_time:179343ms step_avg:170.80ms
step:1061/1530 train_loss:3.4222 train_time:179516ms step_avg:170.81ms
step:1062/1530 train_loss:3.3852 train_time:179693ms step_avg:170.81ms
step:1063/1530 train_loss:3.4577 train_time:179868ms step_avg:170.82ms
step:1064/1530 train_loss:3.3822 train_time:180042ms step_avg:170.82ms
step:1065/1530 train_loss:3.3614 train_time:180219ms step_avg:170.82ms
step:1066/1530 train_loss:3.4144 train_time:180397ms step_avg:170.83ms
step:1067/1530 train_loss:3.2886 train_time:180575ms step_avg:170.84ms
step:1068/1530 train_loss:3.4300 train_time:180750ms step_avg:170.84ms
step:1069/1530 train_loss:3.2984 train_time:180930ms step_avg:170.85ms
step:1070/1530 train_loss:3.5693 train_time:181105ms step_avg:170.85ms
step:1071/1530 train_loss:3.5153 train_time:181283ms step_avg:170.86ms
step:1072/1530 train_loss:3.4441 train_time:181457ms step_avg:170.86ms
step:1073/1530 train_loss:3.5257 train_time:181631ms step_avg:170.87ms
step:1074/1530 train_loss:3.4309 train_time:181807ms step_avg:170.87ms
step:1075/1530 train_loss:3.4042 train_time:181985ms step_avg:170.88ms
step:1076/1530 train_loss:3.7975 train_time:182159ms step_avg:170.88ms
step:1077/1530 train_loss:3.4303 train_time:182335ms step_avg:170.89ms
step:1078/1530 train_loss:3.0961 train_time:182520ms step_avg:170.90ms
step:1079/1530 train_loss:3.5334 train_time:182697ms step_avg:170.90ms
step:1080/1530 train_loss:3.4238 train_time:182875ms step_avg:170.91ms
step:1081/1530 train_loss:3.5038 train_time:183049ms step_avg:170.91ms
step:1082/1530 train_loss:3.5897 train_time:183225ms step_avg:170.92ms
step:1083/1530 train_loss:3.4944 train_time:183400ms step_avg:170.92ms
step:1084/1530 train_loss:3.4665 train_time:183575ms step_avg:170.93ms
step:1085/1530 train_loss:3.4311 train_time:183752ms step_avg:170.93ms
step:1086/1530 train_loss:3.6264 train_time:183929ms step_avg:170.94ms
step:1087/1530 train_loss:3.5084 train_time:184106ms step_avg:170.94ms
step:1088/1530 train_loss:3.3732 train_time:184281ms step_avg:170.95ms
step:1089/1530 train_loss:3.3732 train_time:184460ms step_avg:170.95ms
step:1090/1530 train_loss:3.4794 train_time:184638ms step_avg:170.96ms
step:1091/1530 train_loss:3.2837 train_time:184816ms step_avg:170.97ms
step:1092/1530 train_loss:3.4826 train_time:184994ms step_avg:170.97ms
step:1093/1530 train_loss:3.6037 train_time:185172ms step_avg:170.98ms
step:1094/1530 train_loss:3.4490 train_time:185347ms step_avg:170.98ms
step:1095/1530 train_loss:3.4211 train_time:185520ms step_avg:170.99ms
step:1096/1530 train_loss:3.4245 train_time:185699ms step_avg:170.99ms
step:1097/1530 train_loss:3.4929 train_time:185876ms step_avg:171.00ms
step:1098/1530 train_loss:3.5664 train_time:186054ms step_avg:171.01ms
step:1099/1530 train_loss:3.5279 train_time:186232ms step_avg:171.01ms
step:1100/1530 train_loss:3.4280 train_time:186412ms step_avg:171.02ms
step:1101/1530 train_loss:3.2843 train_time:186591ms step_avg:171.03ms
step:1102/1530 train_loss:3.3107 train_time:186771ms step_avg:171.04ms
step:1103/1530 train_loss:3.4496 train_time:186951ms step_avg:171.04ms
step:1104/1530 train_loss:3.3228 train_time:187128ms step_avg:171.05ms
step:1105/1530 train_loss:4.0622 train_time:187308ms step_avg:171.06ms
step:1106/1530 train_loss:3.2238 train_time:187483ms step_avg:171.06ms
step:1107/1530 train_loss:3.5702 train_time:187659ms step_avg:171.07ms
step:1108/1530 train_loss:3.3482 train_time:187832ms step_avg:171.07ms
step:1109/1530 train_loss:3.4997 train_time:188010ms step_avg:171.07ms
step:1110/1530 train_loss:3.4253 train_time:188183ms step_avg:171.08ms
step:1111/1530 train_loss:3.4811 train_time:188357ms step_avg:171.08ms
step:1112/1530 train_loss:3.5627 train_time:188536ms step_avg:171.09ms
step:1113/1530 train_loss:3.4323 train_time:188719ms step_avg:171.10ms
step:1114/1530 train_loss:3.3744 train_time:188899ms step_avg:171.10ms
step:1115/1530 train_loss:3.2387 train_time:189077ms step_avg:171.11ms
step:1116/1530 train_loss:3.4279 train_time:189251ms step_avg:171.11ms
step:1117/1530 train_loss:3.5937 train_time:189429ms step_avg:171.12ms
step:1118/1530 train_loss:3.6218 train_time:189607ms step_avg:171.13ms
step:1119/1530 train_loss:3.4800 train_time:189781ms step_avg:171.13ms
step:1120/1530 train_loss:3.4886 train_time:189957ms step_avg:171.13ms
step:1121/1530 train_loss:3.3928 train_time:190136ms step_avg:171.14ms
step:1122/1530 train_loss:3.4614 train_time:190312ms step_avg:171.14ms
step:1123/1530 train_loss:3.5771 train_time:190489ms step_avg:171.15ms
step:1124/1530 train_loss:3.3398 train_time:190665ms step_avg:171.15ms
step:1125/1530 train_loss:3.2473 train_time:190839ms step_avg:171.16ms
step:1125/1530 val_loss:3.4105 train_time:190890ms step_avg:171.20ms
step:1126/1530 train_loss:3.4758 train_time:191017ms step_avg:171.16ms
step:1127/1530 train_loss:3.6761 train_time:191194ms step_avg:171.17ms
step:1128/1530 train_loss:3.2246 train_time:191369ms step_avg:171.17ms
step:1129/1530 train_loss:3.5606 train_time:191549ms step_avg:171.18ms
step:1130/1530 train_loss:3.3771 train_time:191727ms step_avg:171.18ms
step:1131/1530 train_loss:3.3999 train_time:191909ms step_avg:171.19ms
step:1132/1530 train_loss:3.3663 train_time:192082ms step_avg:171.20ms
step:1133/1530 train_loss:3.4906 train_time:192388ms step_avg:171.32ms
step:1134/1530 train_loss:3.4448 train_time:192573ms step_avg:171.33ms
step:1135/1530 train_loss:3.5242 train_time:192748ms step_avg:171.33ms
step:1136/1530 train_loss:3.5681 train_time:192925ms step_avg:171.34ms
step:1137/1530 train_loss:3.4604 train_time:193104ms step_avg:171.34ms
step:1138/1530 train_loss:3.3553 train_time:193283ms step_avg:171.35ms
step:1139/1530 train_loss:3.6517 train_time:193614ms step_avg:171.49ms
step:1140/1530 train_loss:3.4572 train_time:193790ms step_avg:171.50ms
step:1141/1530 train_loss:3.5959 train_time:193971ms step_avg:171.50ms
step:1142/1530 train_loss:3.4440 train_time:194147ms step_avg:171.51ms
step:1143/1530 train_loss:3.3637 train_time:194327ms step_avg:171.52ms
step:1144/1530 train_loss:3.4436 train_time:194504ms step_avg:171.52ms
step:1145/1530 train_loss:3.5925 train_time:194679ms step_avg:171.52ms
step:1146/1530 train_loss:3.5547 train_time:194859ms step_avg:171.53ms
step:1147/1530 train_loss:3.4867 train_time:195038ms step_avg:171.54ms
step:1148/1530 train_loss:3.5009 train_time:195216ms step_avg:171.54ms
step:1149/1530 train_loss:3.3261 train_time:195399ms step_avg:171.55ms
step:1150/1530 train_loss:3.3732 train_time:195575ms step_avg:171.56ms
step:1151/1530 train_loss:3.3250 train_time:195755ms step_avg:171.56ms
step:1152/1530 train_loss:3.4038 train_time:195935ms step_avg:171.57ms
step:1153/1530 train_loss:3.4303 train_time:196117ms step_avg:171.58ms
step:1154/1530 train_loss:3.5211 train_time:196293ms step_avg:171.59ms
step:1155/1530 train_loss:3.3236 train_time:196476ms step_avg:171.59ms
step:1156/1530 train_loss:3.5336 train_time:196658ms step_avg:171.60ms
step:1157/1530 train_loss:3.4975 train_time:196836ms step_avg:171.61ms
step:1158/1530 train_loss:3.2498 train_time:197012ms step_avg:171.61ms
step:1159/1530 train_loss:3.3507 train_time:197189ms step_avg:171.62ms
step:1160/1530 train_loss:3.3393 train_time:197362ms step_avg:171.62ms
step:1161/1530 train_loss:3.0824 train_time:197543ms step_avg:171.63ms
step:1162/1530 train_loss:3.4247 train_time:197720ms step_avg:171.63ms
step:1163/1530 train_loss:3.3933 train_time:197900ms step_avg:171.64ms
step:1164/1530 train_loss:3.2939 train_time:198077ms step_avg:171.64ms
step:1165/1530 train_loss:3.2471 train_time:198253ms step_avg:171.65ms
step:1166/1530 train_loss:3.3871 train_time:198434ms step_avg:171.66ms
step:1167/1530 train_loss:3.4132 train_time:198609ms step_avg:171.66ms
step:1168/1530 train_loss:3.7208 train_time:198784ms step_avg:171.66ms
step:1169/1530 train_loss:3.3780 train_time:198962ms step_avg:171.67ms
step:1170/1530 train_loss:3.3929 train_time:199138ms step_avg:171.67ms
step:1171/1530 train_loss:3.3141 train_time:199315ms step_avg:171.68ms
step:1172/1530 train_loss:3.4233 train_time:199489ms step_avg:171.68ms
step:1173/1530 train_loss:3.5366 train_time:199670ms step_avg:171.69ms
step:1174/1530 train_loss:3.3821 train_time:199855ms step_avg:171.70ms
step:1175/1530 train_loss:3.3640 train_time:200033ms step_avg:171.70ms
step:1176/1530 train_loss:3.4247 train_time:200215ms step_avg:171.71ms
step:1177/1530 train_loss:3.4493 train_time:200398ms step_avg:171.72ms
step:1178/1530 train_loss:3.4985 train_time:200574ms step_avg:171.72ms
step:1179/1530 train_loss:3.4010 train_time:200747ms step_avg:171.73ms
step:1180/1530 train_loss:3.3565 train_time:200932ms step_avg:171.74ms
step:1181/1530 train_loss:3.3385 train_time:201110ms step_avg:171.74ms
step:1182/1530 train_loss:3.3757 train_time:201287ms step_avg:171.75ms
step:1183/1530 train_loss:3.3349 train_time:201465ms step_avg:171.75ms
step:1184/1530 train_loss:3.5073 train_time:201642ms step_avg:171.76ms
step:1185/1530 train_loss:3.5462 train_time:201825ms step_avg:171.77ms
step:1186/1530 train_loss:3.3630 train_time:202005ms step_avg:171.77ms
step:1187/1530 train_loss:3.4169 train_time:202192ms step_avg:171.79ms
step:1188/1530 train_loss:3.4429 train_time:202368ms step_avg:171.79ms
step:1189/1530 train_loss:3.2765 train_time:202548ms step_avg:171.80ms
step:1190/1530 train_loss:3.4402 train_time:202727ms step_avg:171.80ms
step:1191/1530 train_loss:3.5817 train_time:202908ms step_avg:171.81ms
step:1192/1530 train_loss:3.3974 train_time:203083ms step_avg:171.81ms
step:1193/1530 train_loss:3.2771 train_time:203257ms step_avg:171.82ms
step:1194/1530 train_loss:3.5557 train_time:203435ms step_avg:171.82ms
step:1195/1530 train_loss:3.3702 train_time:203617ms step_avg:171.83ms
step:1196/1530 train_loss:3.3856 train_time:203803ms step_avg:171.84ms
step:1197/1530 train_loss:3.2920 train_time:203983ms step_avg:171.85ms
step:1198/1530 train_loss:3.3014 train_time:204168ms step_avg:171.86ms
step:1199/1530 train_loss:3.3453 train_time:204347ms step_avg:171.86ms
step:1200/1530 train_loss:3.4512 train_time:204525ms step_avg:171.87ms
step:1201/1530 train_loss:3.4836 train_time:204704ms step_avg:171.88ms
step:1202/1530 train_loss:3.6187 train_time:204893ms step_avg:171.89ms
step:1203/1530 train_loss:3.4083 train_time:205073ms step_avg:171.90ms
step:1204/1530 train_loss:3.3084 train_time:205254ms step_avg:171.90ms
step:1205/1530 train_loss:3.4406 train_time:205430ms step_avg:171.91ms
step:1206/1530 train_loss:3.4753 train_time:205606ms step_avg:171.91ms
step:1207/1530 train_loss:3.5135 train_time:205784ms step_avg:171.92ms
step:1208/1530 train_loss:3.3970 train_time:205959ms step_avg:171.92ms
step:1209/1530 train_loss:3.2491 train_time:206139ms step_avg:171.93ms
step:1210/1530 train_loss:3.3014 train_time:206318ms step_avg:171.93ms
step:1211/1530 train_loss:3.3994 train_time:206496ms step_avg:171.94ms
step:1212/1530 train_loss:3.3995 train_time:206672ms step_avg:171.94ms
step:1213/1530 train_loss:3.4137 train_time:206852ms step_avg:171.95ms
step:1214/1530 train_loss:3.2552 train_time:207033ms step_avg:171.95ms
step:1215/1530 train_loss:3.3920 train_time:207211ms step_avg:171.96ms
step:1216/1530 train_loss:3.3335 train_time:207387ms step_avg:171.96ms
step:1217/1530 train_loss:3.3232 train_time:207565ms step_avg:171.97ms
step:1218/1530 train_loss:3.4089 train_time:207743ms step_avg:171.97ms
step:1219/1530 train_loss:3.2536 train_time:207927ms step_avg:171.98ms
step:1220/1530 train_loss:3.4827 train_time:208104ms step_avg:171.99ms
step:1221/1530 train_loss:3.5065 train_time:208280ms step_avg:171.99ms
step:1222/1530 train_loss:3.4272 train_time:208456ms step_avg:171.99ms
step:1223/1530 train_loss:3.2968 train_time:208632ms step_avg:172.00ms
step:1224/1530 train_loss:3.2546 train_time:208815ms step_avg:172.01ms
step:1225/1530 train_loss:3.3709 train_time:208993ms step_avg:172.01ms
step:1226/1530 train_loss:3.3342 train_time:209173ms step_avg:172.02ms
step:1227/1530 train_loss:3.2781 train_time:209353ms step_avg:172.02ms
step:1228/1530 train_loss:3.4462 train_time:209528ms step_avg:172.03ms
step:1229/1530 train_loss:3.3692 train_time:209708ms step_avg:172.03ms
step:1230/1530 train_loss:3.4004 train_time:209890ms step_avg:172.04ms
step:1231/1530 train_loss:3.5783 train_time:210070ms step_avg:172.05ms
step:1232/1530 train_loss:3.4986 train_time:210251ms step_avg:172.06ms
step:1233/1530 train_loss:3.4274 train_time:210427ms step_avg:172.06ms
step:1234/1530 train_loss:3.5862 train_time:210604ms step_avg:172.06ms
step:1235/1530 train_loss:3.3264 train_time:210784ms step_avg:172.07ms
step:1236/1530 train_loss:3.2893 train_time:210960ms step_avg:172.07ms
step:1237/1530 train_loss:3.2752 train_time:211139ms step_avg:172.08ms
step:1238/1530 train_loss:3.2815 train_time:211322ms step_avg:172.09ms
step:1239/1530 train_loss:3.3347 train_time:211501ms step_avg:172.09ms
step:1240/1530 train_loss:3.3860 train_time:211678ms step_avg:172.10ms
step:1241/1530 train_loss:3.4282 train_time:211857ms step_avg:172.10ms
step:1242/1530 train_loss:3.2993 train_time:212034ms step_avg:172.11ms
step:1243/1530 train_loss:3.4037 train_time:212213ms step_avg:172.11ms
step:1244/1530 train_loss:3.4082 train_time:212386ms step_avg:172.11ms
step:1245/1530 train_loss:3.4149 train_time:212562ms step_avg:172.11ms
step:1246/1530 train_loss:3.2452 train_time:212741ms step_avg:172.12ms
step:1247/1530 train_loss:3.3719 train_time:212917ms step_avg:172.12ms
step:1248/1530 train_loss:3.4262 train_time:213093ms step_avg:172.13ms
step:1249/1530 train_loss:3.4257 train_time:213270ms step_avg:172.13ms
step:1250/1530 train_loss:3.3051 train_time:213449ms step_avg:172.14ms
step:1250/1530 val_loss:3.3574 train_time:213504ms step_avg:172.18ms
step:1251/1530 train_loss:3.4961 train_time:213633ms step_avg:172.15ms
step:1252/1530 train_loss:3.3596 train_time:213809ms step_avg:172.15ms
step:1253/1530 train_loss:3.3105 train_time:213987ms step_avg:172.15ms
step:1254/1530 train_loss:3.4177 train_time:214169ms step_avg:172.16ms
step:1255/1530 train_loss:3.5190 train_time:214357ms step_avg:172.17ms
step:1256/1530 train_loss:3.3067 train_time:214538ms step_avg:172.18ms
step:1257/1530 train_loss:3.3777 train_time:214716ms step_avg:172.19ms
step:1258/1530 train_loss:3.3687 train_time:214900ms step_avg:172.20ms
step:1259/1530 train_loss:3.3287 train_time:215078ms step_avg:172.20ms
step:1260/1530 train_loss:3.2107 train_time:215254ms step_avg:172.20ms
step:1261/1530 train_loss:3.3087 train_time:215434ms step_avg:172.21ms
step:1262/1530 train_loss:3.3243 train_time:215619ms step_avg:172.22ms
step:1263/1530 train_loss:3.2444 train_time:215800ms step_avg:172.23ms
step:1264/1530 train_loss:3.4414 train_time:215977ms step_avg:172.23ms
step:1265/1530 train_loss:3.4269 train_time:216153ms step_avg:172.23ms
step:1266/1530 train_loss:3.4426 train_time:216332ms step_avg:172.24ms
step:1267/1530 train_loss:3.3716 train_time:216513ms step_avg:172.25ms
step:1268/1530 train_loss:3.4106 train_time:216694ms step_avg:172.25ms
step:1269/1530 train_loss:3.2575 train_time:216880ms step_avg:172.26ms
step:1270/1530 train_loss:3.1118 train_time:217057ms step_avg:172.27ms
step:1271/1530 train_loss:3.4050 train_time:217236ms step_avg:172.27ms
step:1272/1530 train_loss:3.3538 train_time:217412ms step_avg:172.28ms
step:1273/1530 train_loss:3.3786 train_time:217594ms step_avg:172.28ms
step:1274/1530 train_loss:3.3634 train_time:217775ms step_avg:172.29ms
step:1275/1530 train_loss:3.4313 train_time:217951ms step_avg:172.29ms
step:1276/1530 train_loss:3.4678 train_time:218125ms step_avg:172.29ms
step:1277/1530 train_loss:3.4144 train_time:218306ms step_avg:172.30ms
step:1278/1530 train_loss:3.4132 train_time:218482ms step_avg:172.30ms
step:1279/1530 train_loss:3.2717 train_time:218663ms step_avg:172.31ms
step:1280/1530 train_loss:3.3684 train_time:218849ms step_avg:172.32ms
step:1281/1530 train_loss:3.4179 train_time:219025ms step_avg:172.32ms
step:1282/1530 train_loss:3.4677 train_time:219199ms step_avg:172.33ms
step:1283/1530 train_loss:3.3395 train_time:219378ms step_avg:172.33ms
step:1284/1530 train_loss:3.3691 train_time:219557ms step_avg:172.34ms
step:1285/1530 train_loss:3.3675 train_time:219737ms step_avg:172.34ms
step:1286/1530 train_loss:3.3316 train_time:219913ms step_avg:172.35ms
step:1287/1530 train_loss:3.4838 train_time:220092ms step_avg:172.35ms
step:1288/1530 train_loss:3.2970 train_time:220274ms step_avg:172.36ms
step:1289/1530 train_loss:3.3842 train_time:220460ms step_avg:172.37ms
step:1290/1530 train_loss:3.4597 train_time:220645ms step_avg:172.38ms
step:1291/1530 train_loss:3.3860 train_time:220824ms step_avg:172.38ms
step:1292/1530 train_loss:3.4795 train_time:221006ms step_avg:172.39ms
step:1293/1530 train_loss:3.5193 train_time:221187ms step_avg:172.40ms
step:1294/1530 train_loss:3.4619 train_time:221368ms step_avg:172.40ms
step:1295/1530 train_loss:3.2827 train_time:221546ms step_avg:172.41ms
step:1296/1530 train_loss:3.3759 train_time:221729ms step_avg:172.42ms
step:1297/1530 train_loss:3.2782 train_time:221908ms step_avg:172.42ms
step:1298/1530 train_loss:3.2786 train_time:222090ms step_avg:172.43ms
step:1299/1530 train_loss:3.3968 train_time:222269ms step_avg:172.43ms
step:1300/1530 train_loss:3.4096 train_time:222445ms step_avg:172.44ms
step:1301/1530 train_loss:3.4029 train_time:222622ms step_avg:172.44ms
step:1302/1530 train_loss:3.5775 train_time:222803ms step_avg:172.45ms
step:1303/1530 train_loss:3.3089 train_time:222985ms step_avg:172.46ms
step:1304/1530 train_loss:3.5166 train_time:223168ms step_avg:172.46ms
step:1305/1530 train_loss:3.2598 train_time:223345ms step_avg:172.47ms
step:1306/1530 train_loss:3.4569 train_time:223526ms step_avg:172.47ms
step:1307/1530 train_loss:3.4547 train_time:223700ms step_avg:172.47ms
step:1308/1530 train_loss:3.2829 train_time:223878ms step_avg:172.48ms
step:1309/1530 train_loss:3.3093 train_time:224057ms step_avg:172.48ms
step:1310/1530 train_loss:3.2879 train_time:224235ms step_avg:172.49ms
step:1311/1530 train_loss:3.2966 train_time:224414ms step_avg:172.49ms
step:1312/1530 train_loss:3.3828 train_time:224596ms step_avg:172.50ms
step:1313/1530 train_loss:3.3452 train_time:224773ms step_avg:172.50ms
step:1314/1530 train_loss:3.0513 train_time:224955ms step_avg:172.51ms
step:1315/1530 train_loss:3.2810 train_time:225132ms step_avg:172.51ms
step:1316/1530 train_loss:3.4020 train_time:225309ms step_avg:172.52ms
step:1317/1530 train_loss:3.4213 train_time:225488ms step_avg:172.52ms
step:1318/1530 train_loss:3.3031 train_time:225674ms step_avg:172.53ms
step:1319/1530 train_loss:3.4308 train_time:225854ms step_avg:172.54ms
step:1320/1530 train_loss:3.4635 train_time:226036ms step_avg:172.55ms
step:1321/1530 train_loss:3.3691 train_time:226215ms step_avg:172.55ms
step:1322/1530 train_loss:3.3270 train_time:226523ms step_avg:172.65ms
step:1323/1530 train_loss:3.3215 train_time:226713ms step_avg:172.67ms
step:1324/1530 train_loss:3.4430 train_time:226895ms step_avg:172.67ms
step:1325/1530 train_loss:3.4924 train_time:227079ms step_avg:172.68ms
step:1326/1530 train_loss:3.2179 train_time:227259ms step_avg:172.69ms
step:1327/1530 train_loss:3.1670 train_time:227436ms step_avg:172.69ms
step:1328/1530 train_loss:3.4917 train_time:227616ms step_avg:172.70ms
step:1329/1530 train_loss:3.3067 train_time:227969ms step_avg:172.83ms
step:1330/1530 train_loss:3.4335 train_time:228151ms step_avg:172.84ms
step:1331/1530 train_loss:3.3371 train_time:228328ms step_avg:172.84ms
step:1332/1530 train_loss:3.7409 train_time:228511ms step_avg:172.85ms
step:1333/1530 train_loss:3.4809 train_time:228692ms step_avg:172.86ms
step:1334/1530 train_loss:3.3724 train_time:228872ms step_avg:172.86ms
step:1335/1530 train_loss:3.2901 train_time:229052ms step_avg:172.87ms
step:1336/1530 train_loss:3.2967 train_time:229236ms step_avg:172.88ms
step:1337/1530 train_loss:3.5535 train_time:229417ms step_avg:172.88ms
step:1338/1530 train_loss:3.5235 train_time:229596ms step_avg:172.89ms
step:1339/1530 train_loss:3.3386 train_time:229776ms step_avg:172.89ms
step:1340/1530 train_loss:3.2852 train_time:229955ms step_avg:172.90ms
step:1341/1530 train_loss:3.5992 train_time:230132ms step_avg:172.90ms
step:1342/1530 train_loss:3.3601 train_time:230312ms step_avg:172.91ms
step:1343/1530 train_loss:3.3666 train_time:230490ms step_avg:172.91ms
step:1344/1530 train_loss:3.4170 train_time:230669ms step_avg:172.92ms
step:1345/1530 train_loss:3.3900 train_time:230850ms step_avg:172.92ms
step:1346/1530 train_loss:3.2982 train_time:231027ms step_avg:172.92ms
step:1347/1530 train_loss:3.2863 train_time:231203ms step_avg:172.93ms
step:1348/1530 train_loss:3.3501 train_time:231381ms step_avg:172.93ms
step:1349/1530 train_loss:3.2754 train_time:231557ms step_avg:172.93ms
step:1350/1530 train_loss:3.3924 train_time:231737ms step_avg:172.94ms
step:1351/1530 train_loss:3.2472 train_time:231915ms step_avg:172.94ms
step:1352/1530 train_loss:3.3101 train_time:232095ms step_avg:172.95ms
step:1353/1530 train_loss:3.4016 train_time:232276ms step_avg:172.95ms
step:1354/1530 train_loss:3.2630 train_time:232454ms step_avg:172.96ms
step:1355/1530 train_loss:3.1919 train_time:232631ms step_avg:172.96ms
step:1356/1530 train_loss:3.5137 train_time:232813ms step_avg:172.97ms
step:1357/1530 train_loss:3.4263 train_time:232995ms step_avg:172.97ms
step:1358/1530 train_loss:3.1881 train_time:233175ms step_avg:172.98ms
step:1359/1530 train_loss:3.4458 train_time:233355ms step_avg:172.98ms
step:1360/1530 train_loss:3.3509 train_time:233535ms step_avg:172.99ms
step:1361/1530 train_loss:3.1298 train_time:233722ms step_avg:173.00ms
step:1362/1530 train_loss:3.3938 train_time:233902ms step_avg:173.00ms
step:1363/1530 train_loss:3.2860 train_time:234090ms step_avg:173.02ms
step:1364/1530 train_loss:3.3039 train_time:234266ms step_avg:173.02ms
step:1365/1530 train_loss:3.3179 train_time:234444ms step_avg:173.02ms
step:1366/1530 train_loss:3.4241 train_time:234624ms step_avg:173.03ms
step:1367/1530 train_loss:3.4024 train_time:234803ms step_avg:173.03ms
step:1368/1530 train_loss:3.3571 train_time:234982ms step_avg:173.04ms
step:1369/1530 train_loss:3.2797 train_time:235172ms step_avg:173.05ms
step:1370/1530 train_loss:3.6098 train_time:235351ms step_avg:173.05ms
step:1371/1530 train_loss:3.3168 train_time:235532ms step_avg:173.06ms
step:1372/1530 train_loss:3.3734 train_time:235716ms step_avg:173.07ms
step:1373/1530 train_loss:3.3712 train_time:235896ms step_avg:173.07ms
step:1374/1530 train_loss:3.1554 train_time:236077ms step_avg:173.08ms
step:1375/1530 train_loss:3.5391 train_time:236257ms step_avg:173.08ms
step:1375/1530 val_loss:3.3148 train_time:236308ms step_avg:173.12ms
step:1376/1530 train_loss:3.3513 train_time:236437ms step_avg:173.09ms
step:1377/1530 train_loss:3.4804 train_time:236615ms step_avg:173.09ms
step:1378/1530 train_loss:3.4754 train_time:236794ms step_avg:173.10ms
step:1379/1530 train_loss:3.1429 train_time:236977ms step_avg:173.10ms
step:1380/1530 train_loss:3.3251 train_time:237157ms step_avg:173.11ms
step:1381/1530 train_loss:3.7036 train_time:237343ms step_avg:173.12ms
step:1382/1530 train_loss:3.2153 train_time:237523ms step_avg:173.12ms
step:1383/1530 train_loss:3.3930 train_time:237705ms step_avg:173.13ms
step:1384/1530 train_loss:3.4808 train_time:237888ms step_avg:173.14ms
step:1385/1530 train_loss:3.4060 train_time:238064ms step_avg:173.14ms
step:1386/1530 train_loss:3.3505 train_time:238244ms step_avg:173.14ms
step:1387/1530 train_loss:3.2049 train_time:238423ms step_avg:173.15ms
step:1388/1530 train_loss:3.3475 train_time:238600ms step_avg:173.15ms
step:1389/1530 train_loss:3.3136 train_time:238783ms step_avg:173.16ms
step:1390/1530 train_loss:3.5682 train_time:238962ms step_avg:173.16ms
step:1391/1530 train_loss:3.2952 train_time:239139ms step_avg:173.16ms
step:1392/1530 train_loss:3.2923 train_time:239318ms step_avg:173.17ms
step:1393/1530 train_loss:3.2404 train_time:239497ms step_avg:173.17ms
step:1394/1530 train_loss:3.5044 train_time:239674ms step_avg:173.18ms
step:1395/1530 train_loss:3.3953 train_time:239852ms step_avg:173.18ms
step:1396/1530 train_loss:3.4080 train_time:240029ms step_avg:173.18ms
step:1397/1530 train_loss:3.3099 train_time:240205ms step_avg:173.18ms
step:1398/1530 train_loss:3.2543 train_time:240381ms step_avg:173.19ms
step:1399/1530 train_loss:3.3166 train_time:240561ms step_avg:173.19ms
step:1400/1530 train_loss:3.3223 train_time:240743ms step_avg:173.20ms
step:1401/1530 train_loss:3.3522 train_time:240919ms step_avg:173.20ms
step:1402/1530 train_loss:3.3045 train_time:241095ms step_avg:173.20ms
step:1403/1530 train_loss:3.4967 train_time:241281ms step_avg:173.21ms
step:1404/1530 train_loss:3.2841 train_time:241459ms step_avg:173.21ms
step:1405/1530 train_loss:3.3145 train_time:241640ms step_avg:173.22ms
step:1406/1530 train_loss:3.3174 train_time:241821ms step_avg:173.22ms
step:1407/1530 train_loss:3.1809 train_time:241998ms step_avg:173.23ms
step:1408/1530 train_loss:3.3145 train_time:242179ms step_avg:173.23ms
step:1409/1530 train_loss:3.3046 train_time:242366ms step_avg:173.24ms
step:1410/1530 train_loss:3.2939 train_time:242544ms step_avg:173.25ms
step:1411/1530 train_loss:3.3698 train_time:242720ms step_avg:173.25ms
step:1412/1530 train_loss:3.3374 train_time:242897ms step_avg:173.25ms
step:1413/1530 train_loss:3.3623 train_time:243076ms step_avg:173.25ms
step:1414/1530 train_loss:3.3301 train_time:243257ms step_avg:173.26ms
step:1415/1530 train_loss:3.4097 train_time:243439ms step_avg:173.27ms
step:1416/1530 train_loss:3.2312 train_time:243627ms step_avg:173.28ms
step:1417/1530 train_loss:3.2847 train_time:243810ms step_avg:173.28ms
step:1418/1530 train_loss:3.3959 train_time:243990ms step_avg:173.29ms
step:1419/1530 train_loss:3.3469 train_time:244173ms step_avg:173.30ms
step:1420/1530 train_loss:3.3710 train_time:244355ms step_avg:173.30ms
step:1421/1530 train_loss:3.3795 train_time:244536ms step_avg:173.31ms
step:1422/1530 train_loss:3.3359 train_time:244712ms step_avg:173.31ms
step:1423/1530 train_loss:3.3199 train_time:244891ms step_avg:173.31ms
step:1424/1530 train_loss:3.3415 train_time:245076ms step_avg:173.32ms
step:1425/1530 train_loss:3.1910 train_time:245265ms step_avg:173.33ms
step:1426/1530 train_loss:3.3254 train_time:245444ms step_avg:173.34ms
step:1427/1530 train_loss:3.2859 train_time:245626ms step_avg:173.34ms
step:1428/1530 train_loss:3.3788 train_time:245805ms step_avg:173.35ms
step:1429/1530 train_loss:3.3547 train_time:245984ms step_avg:173.35ms
step:1430/1530 train_loss:3.2601 train_time:246166ms step_avg:173.36ms
step:1431/1530 train_loss:3.3275 train_time:246348ms step_avg:173.36ms
step:1432/1530 train_loss:3.3428 train_time:246529ms step_avg:173.37ms
step:1433/1530 train_loss:3.1483 train_time:246712ms step_avg:173.37ms
step:1434/1530 train_loss:3.2939 train_time:246895ms step_avg:173.38ms
step:1435/1530 train_loss:3.1167 train_time:247076ms step_avg:173.39ms
step:1436/1530 train_loss:3.2323 train_time:247255ms step_avg:173.39ms
step:1437/1530 train_loss:3.4113 train_time:247432ms step_avg:173.39ms
step:1438/1530 train_loss:3.3808 train_time:247608ms step_avg:173.40ms
step:1439/1530 train_loss:3.3205 train_time:247789ms step_avg:173.40ms
step:1440/1530 train_loss:3.1948 train_time:247966ms step_avg:173.40ms
step:1441/1530 train_loss:3.3402 train_time:248144ms step_avg:173.41ms
step:1442/1530 train_loss:3.3892 train_time:248328ms step_avg:173.41ms
step:1443/1530 train_loss:3.4896 train_time:248515ms step_avg:173.42ms
step:1444/1530 train_loss:3.4512 train_time:248691ms step_avg:173.42ms
step:1445/1530 train_loss:3.3435 train_time:248869ms step_avg:173.43ms
step:1446/1530 train_loss:3.2024 train_time:249050ms step_avg:173.43ms
step:1447/1530 train_loss:3.2975 train_time:249231ms step_avg:173.44ms
step:1448/1530 train_loss:3.2992 train_time:249410ms step_avg:173.44ms
step:1449/1530 train_loss:3.3995 train_time:249588ms step_avg:173.45ms
step:1450/1530 train_loss:3.3897 train_time:249770ms step_avg:173.45ms
step:1451/1530 train_loss:3.2074 train_time:249949ms step_avg:173.46ms
step:1452/1530 train_loss:3.3263 train_time:250128ms step_avg:173.46ms
step:1453/1530 train_loss:3.2613 train_time:250303ms step_avg:173.46ms
step:1454/1530 train_loss:3.2899 train_time:250482ms step_avg:173.46ms
step:1455/1530 train_loss:3.3326 train_time:250663ms step_avg:173.47ms
step:1456/1530 train_loss:3.2828 train_time:250840ms step_avg:173.47ms
step:1457/1530 train_loss:3.1576 train_time:251018ms step_avg:173.47ms
step:1458/1530 train_loss:3.4256 train_time:251195ms step_avg:173.48ms
step:1459/1530 train_loss:3.2786 train_time:251377ms step_avg:173.48ms
step:1460/1530 train_loss:3.3180 train_time:251555ms step_avg:173.49ms
step:1461/1530 train_loss:3.4349 train_time:251734ms step_avg:173.49ms
step:1462/1530 train_loss:3.2621 train_time:251911ms step_avg:173.49ms
step:1463/1530 train_loss:3.4670 train_time:252094ms step_avg:173.50ms
step:1464/1530 train_loss:3.3620 train_time:252272ms step_avg:173.50ms
step:1465/1530 train_loss:3.3629 train_time:252452ms step_avg:173.51ms
step:1466/1530 train_loss:3.2848 train_time:252629ms step_avg:173.51ms
step:1467/1530 train_loss:3.3956 train_time:252809ms step_avg:173.51ms
step:1468/1530 train_loss:3.2864 train_time:252987ms step_avg:173.52ms
step:1469/1530 train_loss:3.2795 train_time:253167ms step_avg:173.52ms
step:1470/1530 train_loss:3.3337 train_time:253349ms step_avg:173.53ms
step:1471/1530 train_loss:3.2633 train_time:253534ms step_avg:173.53ms
step:1472/1530 train_loss:3.2535 train_time:253719ms step_avg:173.54ms
step:1473/1530 train_loss:3.4447 train_time:253896ms step_avg:173.54ms
step:1474/1530 train_loss:3.3162 train_time:254080ms step_avg:173.55ms
step:1475/1530 train_loss:3.1558 train_time:254266ms step_avg:173.56ms
step:1476/1530 train_loss:3.2675 train_time:254445ms step_avg:173.56ms
step:1477/1530 train_loss:3.2411 train_time:254629ms step_avg:173.57ms
step:1478/1530 train_loss:3.3121 train_time:254813ms step_avg:173.58ms
step:1479/1530 train_loss:3.3995 train_time:254995ms step_avg:173.58ms
step:1480/1530 train_loss:3.2723 train_time:255176ms step_avg:173.59ms
step:1481/1530 train_loss:3.4534 train_time:255358ms step_avg:173.59ms
step:1482/1530 train_loss:3.3676 train_time:255545ms step_avg:173.60ms
step:1483/1530 train_loss:3.2795 train_time:255736ms step_avg:173.62ms
step:1484/1530 train_loss:3.2688 train_time:255924ms step_avg:173.63ms
step:1485/1530 train_loss:3.2839 train_time:256105ms step_avg:173.63ms
step:1486/1530 train_loss:3.2288 train_time:256290ms step_avg:173.64ms
step:1487/1530 train_loss:3.3456 train_time:256473ms step_avg:173.64ms
step:1488/1530 train_loss:3.2508 train_time:256657ms step_avg:173.65ms
step:1489/1530 train_loss:3.3177 train_time:256838ms step_avg:173.66ms
step:1490/1530 train_loss:3.2564 train_time:257018ms step_avg:173.66ms
step:1491/1530 train_loss:3.1609 train_time:257197ms step_avg:173.66ms
step:1492/1530 train_loss:3.2758 train_time:257378ms step_avg:173.67ms
step:1493/1530 train_loss:3.4387 train_time:257557ms step_avg:173.67ms
step:1494/1530 train_loss:3.3040 train_time:257735ms step_avg:173.68ms
step:1495/1530 train_loss:3.0321 train_time:257921ms step_avg:173.68ms
step:1496/1530 train_loss:3.3668 train_time:258105ms step_avg:173.69ms
step:1497/1530 train_loss:3.3189 train_time:258290ms step_avg:173.70ms
step:1498/1530 train_loss:3.3487 train_time:258475ms step_avg:173.71ms
step:1499/1530 train_loss:3.3154 train_time:258663ms step_avg:173.72ms
step:1500/1530 train_loss:3.3033 train_time:258854ms step_avg:173.73ms
step:1500/1530 val_loss:3.2828 train_time:258909ms step_avg:173.76ms
step:1501/1530 train_loss:3.0918 train_time:259046ms step_avg:173.74ms
step:1502/1530 train_loss:3.3638 train_time:259237ms step_avg:173.75ms
step:1503/1530 train_loss:3.2461 train_time:259416ms step_avg:173.76ms
step:1504/1530 train_loss:3.2520 train_time:259598ms step_avg:173.76ms
step:1505/1530 train_loss:3.2148 train_time:259777ms step_avg:173.76ms
step:1506/1530 train_loss:3.2819 train_time:259961ms step_avg:173.77ms
step:1507/1530 train_loss:3.1842 train_time:260158ms step_avg:173.79ms
step:1508/1530 train_loss:3.4841 train_time:260342ms step_avg:173.79ms
step:1509/1530 train_loss:3.2821 train_time:260519ms step_avg:173.80ms
step:1510/1530 train_loss:3.2739 train_time:260699ms step_avg:173.80ms
step:1511/1530 train_loss:3.4174 train_time:261008ms step_avg:173.89ms
step:1512/1530 train_loss:3.4227 train_time:261195ms step_avg:173.90ms
step:1513/1530 train_loss:3.2748 train_time:261381ms step_avg:173.91ms
step:1514/1530 train_loss:3.0872 train_time:261564ms step_avg:173.91ms
step:1515/1530 train_loss:3.2472 train_time:261745ms step_avg:173.92ms
step:1516/1530 train_loss:3.2607 train_time:261931ms step_avg:173.93ms
step:1517/1530 train_loss:3.3058 train_time:262112ms step_avg:173.93ms
step:1518/1530 train_loss:3.2098 train_time:262296ms step_avg:173.94ms
step:1519/1530 train_loss:3.5064 train_time:262625ms step_avg:174.04ms
step:1520/1530 train_loss:3.1338 train_time:262807ms step_avg:174.04ms
step:1521/1530 train_loss:3.2077 train_time:262985ms step_avg:174.05ms
step:1522/1530 train_loss:3.3553 train_time:263169ms step_avg:174.05ms
step:1523/1530 train_loss:3.2335 train_time:263346ms step_avg:174.06ms
step:1524/1530 train_loss:3.3496 train_time:263525ms step_avg:174.06ms
step:1525/1530 train_loss:3.3397 train_time:263713ms step_avg:174.07ms
step:1526/1530 train_loss:3.2792 train_time:263902ms step_avg:174.08ms
step:1527/1530 train_loss:3.2977 train_time:264082ms step_avg:174.08ms
step:1528/1530 train_loss:3.4153 train_time:264263ms step_avg:174.09ms
step:1529/1530 train_loss:3.4087 train_time:264441ms step_avg:174.09ms
step:1530/1530 train_loss:3.2422 train_time:264618ms step_avg:174.09ms
step:1530/1530 val_loss:3.2804 train_time:264672ms step_avg:174.13ms