clang-p2996/llvm/test/CodeGen/X86/bfloat.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-linux-gnu | FileCheck %s --check-prefixes=CHECK,SSE2
; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16 | FileCheck %s --check-prefixes=CHECK,BF16

define void @add(ptr %pa, ptr %pb, ptr %pc) nounwind {
; SSE2-LABEL: add:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    movq %rdx, %rbx
; SSE2-NEXT:    movzwl (%rsi), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movzwl (%rdi), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movw %ax, (%rbx)
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    retq
;
; BF16-LABEL: add:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rbx
; BF16-NEXT:    movq %rdx, %rbx
; BF16-NEXT:    movzwl (%rsi), %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    movzwl (%rdi), %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    movw %ax, (%rbx)
; BF16-NEXT:    popq %rbx
; BF16-NEXT:    retq
  %a = load bfloat, ptr %pa
  %b = load bfloat, ptr %pb
  %add = fadd bfloat %a, %b
  store bfloat %add, ptr %pc
  ret void
}

define bfloat @add2(bfloat %a, bfloat %b) nounwind {
; SSE2-LABEL: add2:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rax
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movd %xmm1, %ecx
; SSE2-NEXT:    shll $16, %ecx
; SSE2-NEXT:    movd %ecx, %xmm1
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    popq %rax
; SSE2-NEXT:    retq
;
; BF16-LABEL: add2:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rax
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    vmovd %xmm1, %ecx
; BF16-NEXT:    shll $16, %ecx
; BF16-NEXT:    vmovd %ecx, %xmm0
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    popq %rax
; BF16-NEXT:    retq
  %add = fadd bfloat %a, %b
  ret bfloat %add
}

define void @add_double(ptr %pa, ptr %pb, ptr %pc) nounwind {
; SSE2-LABEL: add_double:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rbp
; SSE2-NEXT:    pushq %r14
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    movq %rdx, %rbx
; SSE2-NEXT:    movq %rsi, %r14
; SSE2-NEXT:    movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT:    callq __truncdfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebp
; SSE2-NEXT:    movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT:    callq __truncdfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    shll $16, %ebp
; SSE2-NEXT:    movd %ebp, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    cvtss2sd %xmm0, %xmm0
; SSE2-NEXT:    movsd %xmm0, (%rbx)
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    popq %r14
; SSE2-NEXT:    popq %rbp
; SSE2-NEXT:    retq
;
; BF16-LABEL: add_double:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rbp
; BF16-NEXT:    pushq %r14
; BF16-NEXT:    pushq %rbx
; BF16-NEXT:    movq %rdx, %rbx
; BF16-NEXT:    movq %rsi, %r14
; BF16-NEXT:    vmovq {{.*#+}} xmm0 = mem[0],zero
; BF16-NEXT:    callq __truncdfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %ebp
; BF16-NEXT:    vmovq {{.*#+}} xmm0 = mem[0],zero
; BF16-NEXT:    callq __truncdfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    shll $16, %ebp
; BF16-NEXT:    vmovd %ebp, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
; BF16-NEXT:    vmovsd %xmm0, (%rbx)
; BF16-NEXT:    popq %rbx
; BF16-NEXT:    popq %r14
; BF16-NEXT:    popq %rbp
; BF16-NEXT:    retq
  %la = load double, ptr %pa
  %a = fptrunc double %la to bfloat
  %lb = load double, ptr %pb
  %b = fptrunc double %lb to bfloat
  %add = fadd bfloat %a, %b
  %dadd = fpext bfloat %add to double
  store double %dadd, ptr %pc
  ret void
}

define double @add_double2(double %da, double %db) nounwind {
; SSE2-LABEL: add_double2:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    subq $16, %rsp
; SSE2-NEXT:    movsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    callq __truncdfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero
; SSE2-NEXT:    callq __truncdfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd %ebx, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    cvtss2sd %xmm0, %xmm0
; SSE2-NEXT:    addq $16, %rsp
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    retq
;
; BF16-LABEL: add_double2:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rbx
; BF16-NEXT:    subq $16, %rsp
; BF16-NEXT:    vmovsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; BF16-NEXT:    callq __truncdfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %ebx
; BF16-NEXT:    vmovq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload
; BF16-NEXT:    # xmm0 = mem[0],zero
; BF16-NEXT:    callq __truncdfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    shll $16, %ebx
; BF16-NEXT:    vmovd %ebx, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
; BF16-NEXT:    addq $16, %rsp
; BF16-NEXT:    popq %rbx
; BF16-NEXT:    retq
  %a = fptrunc double %da to bfloat
  %b = fptrunc double %db to bfloat
  %add = fadd bfloat %a, %b
  %dadd = fpext bfloat %add to double
  ret double %dadd
}

define void @add_constant(ptr %pa, ptr %pc) nounwind {
; SSE2-LABEL: add_constant:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    movq %rsi, %rbx
; SSE2-NEXT:    movzwl (%rdi), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movw %ax, (%rbx)
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    retq
;
; BF16-LABEL: add_constant:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rbx
; BF16-NEXT:    movq %rsi, %rbx
; BF16-NEXT:    movzwl (%rdi), %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    movw %ax, (%rbx)
; BF16-NEXT:    popq %rbx
; BF16-NEXT:    retq
  %a = load bfloat, ptr %pa
  %add = fadd bfloat %a, 1.0
  store bfloat %add, ptr %pc
  ret void
}

define bfloat @add_constant2(bfloat %a) nounwind {
; SSE2-LABEL: add_constant2:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rax
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    popq %rax
; SSE2-NEXT:    retq
;
; BF16-LABEL: add_constant2:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rax
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    popq %rax
; BF16-NEXT:    retq
  %add = fadd bfloat %a, 1.0
  ret bfloat %add
}

define void @store_constant(ptr %pc) nounwind {
; CHECK-LABEL: store_constant:
; CHECK:       # %bb.0:
; CHECK-NEXT:    movw $16256, (%rdi) # imm = 0x3F80
; CHECK-NEXT:    retq
  store bfloat 1.0, ptr %pc
  ret void
}

define void @fold_ext_trunc(ptr %pa, ptr %pc) nounwind {
; CHECK-LABEL: fold_ext_trunc:
; CHECK:       # %bb.0:
; CHECK-NEXT:    movzwl (%rdi), %eax
; CHECK-NEXT:    movw %ax, (%rsi)
; CHECK-NEXT:    retq
  %a = load bfloat, ptr %pa
  %ext = fpext bfloat %a to float
  %trunc = fptrunc float %ext to bfloat
  store bfloat %trunc, ptr %pc
  ret void
}

define bfloat @fold_ext_trunc2(bfloat %a) nounwind {
; CHECK-LABEL: fold_ext_trunc2:
; CHECK:       # %bb.0:
; CHECK-NEXT:    retq
  %ext = fpext bfloat %a to float
  %trunc = fptrunc float %ext to bfloat
  ret bfloat %trunc
}

define <8 x bfloat> @addv(<8 x bfloat> %a, <8 x bfloat> %b) nounwind {
; SSE2-LABEL: addv:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %rbp
; SSE2-NEXT:    pushq %r15
; SSE2-NEXT:    pushq %r14
; SSE2-NEXT:    pushq %r13
; SSE2-NEXT:    pushq %r12
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    subq $56, %rsp
; SSE2-NEXT:    movq %xmm0, %rcx
; SSE2-NEXT:    movq %rcx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    movq %rcx, %rax
; SSE2-NEXT:    shrq $32, %rax
; SSE2-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    movq %xmm1, %rdx
; SSE2-NEXT:    movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    movq %rdx, %rax
; SSE2-NEXT:    shrq $32, %rax
; SSE2-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    movq %rcx, %rax
; SSE2-NEXT:    shrq $48, %rax
; SSE2-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    movq %rdx, %rax
; SSE2-NEXT:    shrq $48, %rax
; SSE2-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
; SSE2-NEXT:    punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; SSE2-NEXT:    movq %xmm0, %r12
; SSE2-NEXT:    movq %r12, %rax
; SSE2-NEXT:    shrq $32, %rax
; SSE2-NEXT:    movq %rax, (%rsp) # 8-byte Spill
; SSE2-NEXT:    punpckhqdq {{.*#+}} xmm1 = xmm1[1,1]
; SSE2-NEXT:    movq %xmm1, %r14
; SSE2-NEXT:    movq %r14, %rbp
; SSE2-NEXT:    shrq $32, %rbp
; SSE2-NEXT:    movq %r12, %r15
; SSE2-NEXT:    shrq $48, %r15
; SSE2-NEXT:    movq %r14, %r13
; SSE2-NEXT:    shrq $48, %r13
; SSE2-NEXT:    movl %r14d, %eax
; SSE2-NEXT:    andl $-65536, %eax # imm = 0xFFFF0000
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movl %r12d, %eax
; SSE2-NEXT:    andl $-65536, %eax # imm = 0xFFFF0000
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    shll $16, %r14d
; SSE2-NEXT:    movd %r14d, %xmm1
; SSE2-NEXT:    shll $16, %r12d
; SSE2-NEXT:    movd %r12d, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r12d
; SSE2-NEXT:    orl %ebx, %r12d
; SSE2-NEXT:    shll $16, %r13d
; SSE2-NEXT:    movd %r13d, %xmm1
; SSE2-NEXT:    shll $16, %r15d
; SSE2-NEXT:    movd %r15d, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %r14d
; SSE2-NEXT:    shll $16, %r14d
; SSE2-NEXT:    shll $16, %ebp
; SSE2-NEXT:    movd %ebp, %xmm1
; SSE2-NEXT:    movq (%rsp), %rax # 8-byte Reload
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %ebx
; SSE2-NEXT:    orl %r14d, %ebx
; SSE2-NEXT:    shlq $32, %rbx
; SSE2-NEXT:    orq %r12, %rbx
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r15 # 8-byte Reload
; SSE2-NEXT:    movl %r15d, %eax
; SSE2-NEXT:    andl $-65536, %eax # imm = 0xFFFF0000
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r14 # 8-byte Reload
; SSE2-NEXT:    movl %r14d, %eax
; SSE2-NEXT:    andl $-65536, %eax # imm = 0xFFFF0000
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebp
; SSE2-NEXT:    shll $16, %ebp
; SSE2-NEXT:    movq %r15, %rax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movq %r14, %rax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebp, %r14d
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebp
; SSE2-NEXT:    shll $16, %ebp
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:    addss %xmm1, %xmm0
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebp, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movq %rbx, %xmm1
; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT:    addq $56, %rsp
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    popq %r12
; SSE2-NEXT:    popq %r13
; SSE2-NEXT:    popq %r14
; SSE2-NEXT:    popq %r15
; SSE2-NEXT:    popq %rbp
; SSE2-NEXT:    retq
;
; BF16-LABEL: addv:
; BF16:       # %bb.0:
; BF16-NEXT:    pushq %rbp
; BF16-NEXT:    pushq %r15
; BF16-NEXT:    pushq %r14
; BF16-NEXT:    pushq %r13
; BF16-NEXT:    pushq %r12
; BF16-NEXT:    pushq %rbx
; BF16-NEXT:    subq $40, %rsp
; BF16-NEXT:    vmovdqa %xmm1, (%rsp) # 16-byte Spill
; BF16-NEXT:    vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BF16-NEXT:    vpextrw $7, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm2
; BF16-NEXT:    vpextrw $7, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm2, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $6, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $6, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %ebp
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $5, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $5, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %r14d
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $4, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $4, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %r15d
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $3, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $3, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %r12d
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $2, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $2, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %r13d
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vpextrw $1, %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vpextrw $1, %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %ebx
; BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; BF16-NEXT:    vmovd %xmm1, %eax
; BF16-NEXT:    shll $16, %eax
; BF16-NEXT:    vmovd %eax, %xmm1
; BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
; BF16-NEXT:    callq __truncsfbf2@PLT
; BF16-NEXT:    vmovd %xmm0, %eax
; BF16-NEXT:    vmovd %eax, %xmm0
; BF16-NEXT:    vpinsrw $1, %ebx, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $2, %r13d, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $3, %r12d, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $4, %r15d, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $5, %r14d, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $6, %ebp, %xmm0, %xmm0
; BF16-NEXT:    vpinsrw $7, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 4-byte Folded Reload
; BF16-NEXT:    addq $40, %rsp
; BF16-NEXT:    popq %rbx
; BF16-NEXT:    popq %r12
; BF16-NEXT:    popq %r13
; BF16-NEXT:    popq %r14
; BF16-NEXT:    popq %r15
; BF16-NEXT:    popq %rbp
; BF16-NEXT:    retq
  %add = fadd <8 x bfloat> %a, %b
  ret <8 x bfloat> %add
}

define <2 x bfloat> @pr62997(bfloat %a, bfloat %b) {
; SSE2-LABEL: pr62997:
; SSE2:       # %bb.0:
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movd %xmm1, %ecx
; SSE2-NEXT:    pinsrw $0, %ecx, %xmm1
; SSE2-NEXT:    pinsrw $0, %eax, %xmm0
; SSE2-NEXT:    punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT:    retq
;
; BF16-LABEL: pr62997:
; BF16:       # %bb.0:
; BF16-NEXT:    vmovd %xmm1, %eax
; BF16-NEXT:    vmovd %xmm0, %ecx
; BF16-NEXT:    vmovd %ecx, %xmm0
; BF16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm0
; BF16-NEXT:    retq
  %1 = insertelement <2 x bfloat> undef, bfloat %a, i64 0
  %2 = insertelement <2 x bfloat> %1, bfloat %b, i64 1
  ret <2 x bfloat> %2
}

define <32 x bfloat> @pr63017() {
; SSE2-LABEL: pr63017:
; SSE2:       # %bb.0:
; SSE2-NEXT:    xorps %xmm0, %xmm0
; SSE2-NEXT:    xorps %xmm1, %xmm1
; SSE2-NEXT:    xorps %xmm2, %xmm2
; SSE2-NEXT:    xorps %xmm3, %xmm3
; SSE2-NEXT:    retq
;
; BF16-LABEL: pr63017:
; BF16:       # %bb.0:
; BF16-NEXT:    vxorps %xmm0, %xmm0, %xmm0
; BF16-NEXT:    retq
  ret <32 x bfloat> zeroinitializer
}

define <32 x bfloat> @pr63017_2() nounwind {
; SSE2-LABEL: pr63017_2:
; SSE2:       # %bb.0:
; SSE2-NEXT:    pushq %r14
; SSE2-NEXT:    pushq %rbx
; SSE2-NEXT:    subq $200, %rsp
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_1
; SSE2-NEXT:  # %bb.2: # %cond.load
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:    movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    movdqa %xmm0, %xmm1
; SSE2-NEXT:    jmp .LBB12_3
; SSE2-NEXT:  .LBB12_1:
; SSE2-NEXT:    movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT:    movdqa %xmm1, %xmm0
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:  .LBB12_3: # %else
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_5
; SSE2-NEXT:  # %bb.4: # %cond.load1
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm0
; SSE2-NEXT:  .LBB12_5: # %else2
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_6
; SSE2-NEXT:  # %bb.7: # %cond.load4
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movdqa %xmm1, %xmm14
; SSE2-NEXT:    movdqa %xmm1, %xmm15
; SSE2-NEXT:    movdqa %xmm1, %xmm12
; SSE2-NEXT:    movdqa %xmm1, %xmm13
; SSE2-NEXT:    movdqa %xmm1, %xmm10
; SSE2-NEXT:    movdqa %xmm1, %xmm11
; SSE2-NEXT:    movdqa %xmm1, %xmm8
; SSE2-NEXT:    movdqa %xmm1, %xmm9
; SSE2-NEXT:    movdqa %xmm1, %xmm6
; SSE2-NEXT:    movdqa %xmm1, %xmm7
; SSE2-NEXT:    movdqa %xmm1, %xmm4
; SSE2-NEXT:    movdqa %xmm1, %xmm5
; SSE2-NEXT:    movdqa %xmm1, %xmm2
; SSE2-NEXT:    movdqa %xmm1, %xmm3
; SSE2-NEXT:    movd %eax, %xmm1
; SSE2-NEXT:    jmp .LBB12_8
; SSE2-NEXT:  .LBB12_6:
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movdqa %xmm1, %xmm14
; SSE2-NEXT:    movdqa %xmm1, %xmm15
; SSE2-NEXT:    movdqa %xmm1, %xmm12
; SSE2-NEXT:    movdqa %xmm1, %xmm13
; SSE2-NEXT:    movdqa %xmm1, %xmm10
; SSE2-NEXT:    movdqa %xmm1, %xmm11
; SSE2-NEXT:    movdqa %xmm1, %xmm8
; SSE2-NEXT:    movdqa %xmm1, %xmm9
; SSE2-NEXT:    movdqa %xmm1, %xmm6
; SSE2-NEXT:    movdqa %xmm1, %xmm7
; SSE2-NEXT:    movdqa %xmm1, %xmm4
; SSE2-NEXT:    movdqa %xmm1, %xmm5
; SSE2-NEXT:    movdqa %xmm1, %xmm2
; SSE2-NEXT:    movdqa %xmm1, %xmm3
; SSE2-NEXT:  .LBB12_8: # %else5
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_10
; SSE2-NEXT:  # %bb.9: # %cond.load7
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_10: # %else8
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_12
; SSE2-NEXT:  # %bb.11: # %cond.load10
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_12: # %else11
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_14
; SSE2-NEXT:  # %bb.13: # %cond.load13
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_14: # %else14
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_16
; SSE2-NEXT:  # %bb.15: # %cond.load16
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_16: # %else17
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_18
; SSE2-NEXT:  # %bb.17: # %cond.load19
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_18: # %else20
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_20
; SSE2-NEXT:  # %bb.19: # %cond.load22
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_20: # %else23
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_22
; SSE2-NEXT:  # %bb.21: # %cond.load25
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_22: # %else26
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_24
; SSE2-NEXT:  # %bb.23: # %cond.load28
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_24: # %else29
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_26
; SSE2-NEXT:  # %bb.25: # %cond.load31
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_26: # %else32
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_28
; SSE2-NEXT:  # %bb.27: # %cond.load34
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_28: # %else35
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_30
; SSE2-NEXT:  # %bb.29: # %cond.load37
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_30: # %else38
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_32
; SSE2-NEXT:  # %bb.31: # %cond.load40
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_32: # %else41
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_34
; SSE2-NEXT:  # %bb.33: # %cond.load43
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_34: # %else44
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_36
; SSE2-NEXT:  # %bb.35: # %cond.load46
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_36: # %else47
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_38
; SSE2-NEXT:  # %bb.37: # %cond.load49
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:  .LBB12_38: # %else50
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_40
; SSE2-NEXT:  # %bb.39: # %cond.load52
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm14
; SSE2-NEXT:  .LBB12_40: # %else53
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_42
; SSE2-NEXT:  # %bb.41: # %cond.load55
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm15
; SSE2-NEXT:  .LBB12_42: # %else56
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_44
; SSE2-NEXT:  # %bb.43: # %cond.load58
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm12
; SSE2-NEXT:  .LBB12_44: # %else59
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_46
; SSE2-NEXT:  # %bb.45: # %cond.load61
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm13
; SSE2-NEXT:  .LBB12_46: # %else62
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_48
; SSE2-NEXT:  # %bb.47: # %cond.load64
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm10
; SSE2-NEXT:  .LBB12_48: # %else65
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_50
; SSE2-NEXT:  # %bb.49: # %cond.load67
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm11
; SSE2-NEXT:  .LBB12_50: # %else68
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_52
; SSE2-NEXT:  # %bb.51: # %cond.load70
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm8
; SSE2-NEXT:  .LBB12_52: # %else71
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_54
; SSE2-NEXT:  # %bb.53: # %cond.load73
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm9
; SSE2-NEXT:  .LBB12_54: # %else74
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_56
; SSE2-NEXT:  # %bb.55: # %cond.load76
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm6
; SSE2-NEXT:  .LBB12_56: # %else77
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_58
; SSE2-NEXT:  # %bb.57: # %cond.load79
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm7
; SSE2-NEXT:  .LBB12_58: # %else80
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_60
; SSE2-NEXT:  # %bb.59: # %cond.load82
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm4
; SSE2-NEXT:  .LBB12_60: # %else83
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_62
; SSE2-NEXT:  # %bb.61: # %cond.load85
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm5
; SSE2-NEXT:  .LBB12_62: # %else86
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    jne .LBB12_64
; SSE2-NEXT:  # %bb.63: # %cond.load88
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movd %eax, %xmm2
; SSE2-NEXT:  .LBB12_64: # %else89
; SSE2-NEXT:    xorl %eax, %eax
; SSE2-NEXT:    testb %al, %al
; SSE2-NEXT:    movd %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm8, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm10, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm11, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm12, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    movd %xmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:    jne .LBB12_65
; SSE2-NEXT:  # %bb.66: # %cond.load91
; SSE2-NEXT:    movzwl (%rax), %eax
; SSE2-NEXT:    shll $16, %eax
; SSE2-NEXT:    movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; SSE2-NEXT:    jmp .LBB12_67
; SSE2-NEXT:  .LBB12_65:
; SSE2-NEXT:    movd %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; SSE2-NEXT:  .LBB12_67: # %else92
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT:    movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT:    movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT:    movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %r14d
; SSE2-NEXT:    orl %ebx, %r14d
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %ebx
; SSE2-NEXT:    shll $16, %ebx
; SSE2-NEXT:    movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; SSE2-NEXT:    # xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT:    callq __truncsfbf2@PLT
; SSE2-NEXT:    movd %xmm0, %eax
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    orl %ebx, %eax
; SSE2-NEXT:    shlq $32, %rax
; SSE2-NEXT:    orq %r14, %rax
; SSE2-NEXT:    movq %rax, %xmm0
; SSE2-NEXT:    movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload
; SSE2-NEXT:    punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; SSE2-NEXT:    movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; SSE2-NEXT:    movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; SSE2-NEXT:    movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
; SSE2-NEXT:    addq $200, %rsp
; SSE2-NEXT:    popq %rbx
; SSE2-NEXT:    popq %r14
; SSE2-NEXT:    retq
;
; BF16-LABEL: pr63017_2:
; BF16:       # %bb.0:
; BF16-NEXT:    vpbroadcastw {{.*#+}} zmm0 = [49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024]
; BF16-NEXT:    vmovdqu16 (%rax), %zmm0 {%k1}
; BF16-NEXT:    retq
  %1 = call <32 x bfloat> @llvm.masked.load.v32bf16.p0(ptr poison, i32 2, <32 x i1> poison, <32 x bfloat> <bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80, bfloat 0xRBF80>)
  ret <32 x bfloat> %1
}

define <32 x bfloat> @pr62997_3(<32 x bfloat> %0, bfloat %1) {
; SSE2-LABEL: pr62997_3:
; SSE2:       # %bb.0:
; SSE2-NEXT:    movq %xmm0, %rax
; SSE2-NEXT:    movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
; SSE2-NEXT:    andq %rax, %rcx
; SSE2-NEXT:    movzwl %ax, %eax
; SSE2-NEXT:    movd %xmm4, %edx
; SSE2-NEXT:    shll $16, %edx
; SSE2-NEXT:    orl %eax, %edx
; SSE2-NEXT:    orq %rcx, %rdx
; SSE2-NEXT:    movq %rdx, %xmm4
; SSE2-NEXT:    movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]
; SSE2-NEXT:    retq
;
; BF16-LABEL: pr62997_3:
; BF16:       # %bb.0:
; BF16-NEXT:    vmovd %xmm1, %eax
; BF16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm1
; BF16-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
; BF16-NEXT:    retq
  %3 = insertelement <32 x bfloat> %0, bfloat %1, i64 1
  ret <32 x bfloat> %3
}

declare <32 x bfloat> @llvm.masked.load.v32bf16.p0(ptr, i32, <32 x i1>, <32 x bfloat>)