[libclc][NFC] Clang-format vload/vstore code

2025-04-24 11:42:18 +01:00
parent 15321d2c9e
commit 2edade2824
6 changed files with 350 additions and 326 deletions
--- a/libclc/generic/include/clc/shared/vload.h
+++ b/libclc/generic/include/clc/shared/vload.h
@@ -7,7 +7,8 @@
 //===----------------------------------------------------------------------===//

 #define _CLC_VLOAD_DECL(SUFFIX, MEM_TYPE, VEC_TYPE, WIDTH, ADDR_SPACE)         \
-  _CLC_OVERLOAD _CLC_DECL VEC_TYPE vload##SUFFIX##WIDTH(size_t offset, const ADDR_SPACE MEM_TYPE *x);
+  _CLC_OVERLOAD _CLC_DECL VEC_TYPE vload##SUFFIX##WIDTH(                       \
+      size_t offset, const ADDR_SPACE MEM_TYPE *x);

 #define _CLC_VECTOR_VLOAD_DECL(SUFFIX, MEM_TYPE, PRIM_TYPE, ADDR_SPACE)        \
  _CLC_VLOAD_DECL(SUFFIX, MEM_TYPE, PRIM_TYPE##2, 2, ADDR_SPACE)               \
--- a/libclc/generic/include/clc/shared/vstore.h
+++ b/libclc/generic/include/clc/shared/vstore.h
@@ -7,7 +7,8 @@
 //===----------------------------------------------------------------------===//

 #define _CLC_VSTORE_DECL(SUFFIX, PRIM_TYPE, VEC_TYPE, WIDTH, ADDR_SPACE, RND)  \
-  _CLC_OVERLOAD _CLC_DECL void vstore##SUFFIX##WIDTH##RND(VEC_TYPE vec, size_t offset, ADDR_SPACE PRIM_TYPE *out);
+  _CLC_OVERLOAD _CLC_DECL void vstore##SUFFIX##WIDTH##RND(                     \
+      VEC_TYPE vec, size_t offset, ADDR_SPACE PRIM_TYPE *out);

 #define _CLC_VECTOR_VSTORE_DECL(SUFFIX, MEM_TYPE, PRIM_TYPE, ADDR_SPACE, RND)  \
  _CLC_VSTORE_DECL(SUFFIX, MEM_TYPE, PRIM_TYPE##2, 2, ADDR_SPACE, RND)         \
@@ -63,7 +64,6 @@ _CLC_VECTOR_VSTORE_HALF_PRIM1(float, _rte)
 _CLC_VECTOR_VSTORE_PRIM1(half)
 #endif

-
 #undef _CLC_VSTORE_DECL
 #undef _CLC_VECTOR_VSTORE_DECL
 #undef _CLC_VECTOR_VSTORE_PRIM3
--- a/libclc/generic/lib/shared/vload.cl
+++ b/libclc/generic/lib/shared/vload.cl
@@ -9,37 +9,53 @@
 #include <clc/clc.h>

 #define VLOAD_VECTORIZE(PRIM_TYPE, ADDR_SPACE)                                 \
-  typedef PRIM_TYPE##2 less_aligned_##ADDR_SPACE##PRIM_TYPE##2 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##2 vload2(size_t offset, const ADDR_SPACE PRIM_TYPE *x) { \
-    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2*) (&x[2*offset])); \
+  typedef PRIM_TYPE##2 less_aligned_##ADDR_SPACE##PRIM_TYPE##2                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##2 vload2(size_t offset,                    \
+                                             const ADDR_SPACE PRIM_TYPE *x) {  \
+    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2         \
+                  *)(&x[2 * offset]));                                         \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##3 less_aligned_##ADDR_SPACE##PRIM_TYPE##3 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##3 vload3(size_t offset, const ADDR_SPACE PRIM_TYPE *x) { \
-    PRIM_TYPE##2 vec = *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2*) (&x[3*offset])); \
+  typedef PRIM_TYPE##3 less_aligned_##ADDR_SPACE##PRIM_TYPE##3                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##3 vload3(size_t offset,                    \
+                                             const ADDR_SPACE PRIM_TYPE *x) {  \
+    PRIM_TYPE##2 vec =                                                         \
+        *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2            \
+               *)(&x[3 * offset]));                                            \
    return (PRIM_TYPE##3)(vec.s0, vec.s1, x[offset * 3 + 2]);                  \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##4 less_aligned_##ADDR_SPACE##PRIM_TYPE##4 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##4 vload4(size_t offset, const ADDR_SPACE PRIM_TYPE *x) { \
-    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##4*) (&x[4*offset])); \
+  typedef PRIM_TYPE##4 less_aligned_##ADDR_SPACE##PRIM_TYPE##4                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##4 vload4(size_t offset,                    \
+                                             const ADDR_SPACE PRIM_TYPE *x) {  \
+    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##4         \
+                  *)(&x[4 * offset]));                                         \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##8 less_aligned_##ADDR_SPACE##PRIM_TYPE##8 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##8 vload8(size_t offset, const ADDR_SPACE PRIM_TYPE *x) { \
-    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##8*) (&x[8*offset])); \
+  typedef PRIM_TYPE##8 less_aligned_##ADDR_SPACE##PRIM_TYPE##8                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##8 vload8(size_t offset,                    \
+                                             const ADDR_SPACE PRIM_TYPE *x) {  \
+    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##8         \
+                  *)(&x[8 * offset]));                                         \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##16 less_aligned_##ADDR_SPACE##PRIM_TYPE##16 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##16 vload16(size_t offset, const ADDR_SPACE PRIM_TYPE *x) { \
-    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##16*) (&x[16*offset])); \
-  } \
+  typedef PRIM_TYPE##16 less_aligned_##ADDR_SPACE##PRIM_TYPE##16               \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF PRIM_TYPE##16 vload16(                                \
+      size_t offset, const ADDR_SPACE PRIM_TYPE *x) {                          \
+    return *((const ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##16        \
+                  *)(&x[16 * offset]));                                        \
+  }

 #define VLOAD_ADDR_SPACES(__CLC_SCALAR_GENTYPE)                                \
  VLOAD_VECTORIZE(__CLC_SCALAR_GENTYPE, __private)                             \
  VLOAD_VECTORIZE(__CLC_SCALAR_GENTYPE, __local)                               \
  VLOAD_VECTORIZE(__CLC_SCALAR_GENTYPE, __constant)                            \
-    VLOAD_VECTORIZE(__CLC_SCALAR_GENTYPE, __global) \
+  VLOAD_VECTORIZE(__CLC_SCALAR_GENTYPE, __global)

 #define VLOAD_TYPES()                                                          \
  VLOAD_ADDR_SPACES(char)                                                      \
@@ -50,7 +66,7 @@
  VLOAD_ADDR_SPACES(uint)                                                      \
  VLOAD_ADDR_SPACES(long)                                                      \
  VLOAD_ADDR_SPACES(ulong)                                                     \
-    VLOAD_ADDR_SPACES(float) \
+  VLOAD_ADDR_SPACES(float)

 VLOAD_TYPES()

@@ -71,7 +87,8 @@ float __clc_vload_half_float_helper__global(const __global half *);
 float __clc_vload_half_float_helper__local(const __local half *);
 float __clc_vload_half_float_helper__private(const __private half *);

-#define VEC_LOAD1(val, AS) val = __clc_vload_half_float_helper##AS (&mem[offset++]);
+#define VEC_LOAD1(val, AS)                                                     \
+  val = __clc_vload_half_float_helper##AS(&mem[offset++]);
 #else
 #define VEC_LOAD1(val, AS) val = __builtin_load_halff(&mem[offset++]);
 #endif
@@ -94,20 +111,21 @@ float __clc_vload_half_float_helper__private(const __private half *);
  VEC_LOAD8(val.hi, AS)

 #define __FUNC(SUFFIX, VEC_SIZE, OFFSET_SIZE, TYPE, AS)                        \
-  _CLC_OVERLOAD _CLC_DEF TYPE vload_half##SUFFIX(size_t offset, const AS half *mem) { \
+  _CLC_OVERLOAD _CLC_DEF TYPE vload_half##SUFFIX(size_t offset,                \
+                                                 const AS half *mem) {         \
    offset *= VEC_SIZE;                                                        \
    TYPE __tmp;                                                                \
-    VEC_LOAD##VEC_SIZE(__tmp, AS) \
-    return __tmp; \
+    VEC_LOAD##VEC_SIZE(__tmp, AS) return __tmp;                                \
  }                                                                            \
-  _CLC_OVERLOAD _CLC_DEF TYPE vloada_half##SUFFIX(size_t offset, const AS half *mem) { \
+  _CLC_OVERLOAD _CLC_DEF TYPE vloada_half##SUFFIX(size_t offset,               \
+                                                  const AS half *mem) {        \
    offset *= OFFSET_SIZE;                                                     \
    TYPE __tmp;                                                                \
-    VEC_LOAD##VEC_SIZE(__tmp, AS) \
-    return __tmp; \
+    VEC_LOAD##VEC_SIZE(__tmp, AS) return __tmp;                                \
  }

-#define FUNC(SUFFIX, VEC_SIZE, OFFSET_SIZE, TYPE, AS) __FUNC(SUFFIX, VEC_SIZE, OFFSET_SIZE, TYPE, AS)
+#define FUNC(SUFFIX, VEC_SIZE, OFFSET_SIZE, TYPE, AS)                          \
+  __FUNC(SUFFIX, VEC_SIZE, OFFSET_SIZE, TYPE, AS)

 #define __CLC_BODY "vload_half.inc"
 #include <clc/math/gentype.inc>
--- a/libclc/generic/lib/shared/vstore.cl
+++ b/libclc/generic/lib/shared/vstore.cl
@@ -11,35 +11,49 @@
 #pragma OPENCL EXTENSION cl_khr_byte_addressable_store : enable

 #define VSTORE_VECTORIZE(PRIM_TYPE, ADDR_SPACE)                                \
-  typedef PRIM_TYPE##2 less_aligned_##ADDR_SPACE##PRIM_TYPE##2 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF void vstore2(PRIM_TYPE##2 vec, size_t offset, ADDR_SPACE PRIM_TYPE *mem) { \
-    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2*) (&mem[2*offset])) = vec; \
+  typedef PRIM_TYPE##2 less_aligned_##ADDR_SPACE##PRIM_TYPE##2                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF void vstore2(PRIM_TYPE##2 vec, size_t offset,         \
+                                      ADDR_SPACE PRIM_TYPE *mem) {             \
+    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2                      \
+           *)(&mem[2 * offset])) = vec;                                        \
  }                                                                            \
                                                                               \
-  _CLC_OVERLOAD _CLC_DEF void vstore3(PRIM_TYPE##3 vec, size_t offset, ADDR_SPACE PRIM_TYPE *mem) { \
-    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2*) (&mem[3*offset])) = (PRIM_TYPE##2)(vec.s0, vec.s1); \
+  _CLC_OVERLOAD _CLC_DEF void vstore3(PRIM_TYPE##3 vec, size_t offset,         \
+                                      ADDR_SPACE PRIM_TYPE *mem) {             \
+    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##2                      \
+           *)(&mem[3 * offset])) = (PRIM_TYPE##2)(vec.s0, vec.s1);             \
    mem[3 * offset + 2] = vec.s2;                                              \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##4 less_aligned_##ADDR_SPACE##PRIM_TYPE##4 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF void vstore4(PRIM_TYPE##4 vec, size_t offset, ADDR_SPACE PRIM_TYPE *mem) { \
-    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##4*) (&mem[4*offset])) = vec; \
+  typedef PRIM_TYPE##4 less_aligned_##ADDR_SPACE##PRIM_TYPE##4                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF void vstore4(PRIM_TYPE##4 vec, size_t offset,         \
+                                      ADDR_SPACE PRIM_TYPE *mem) {             \
+    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##4                      \
+           *)(&mem[4 * offset])) = vec;                                        \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##8 less_aligned_##ADDR_SPACE##PRIM_TYPE##8 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF void vstore8(PRIM_TYPE##8 vec, size_t offset, ADDR_SPACE PRIM_TYPE *mem) { \
-    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##8*) (&mem[8*offset])) = vec; \
+  typedef PRIM_TYPE##8 less_aligned_##ADDR_SPACE##PRIM_TYPE##8                 \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF void vstore8(PRIM_TYPE##8 vec, size_t offset,         \
+                                      ADDR_SPACE PRIM_TYPE *mem) {             \
+    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##8                      \
+           *)(&mem[8 * offset])) = vec;                                        \
  }                                                                            \
                                                                               \
-  typedef PRIM_TYPE##16 less_aligned_##ADDR_SPACE##PRIM_TYPE##16 __attribute__ ((aligned (sizeof(PRIM_TYPE))));\
-  _CLC_OVERLOAD _CLC_DEF void vstore16(PRIM_TYPE##16 vec, size_t offset, ADDR_SPACE PRIM_TYPE *mem) { \
-    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##16*) (&mem[16*offset])) = vec; \
-  } \
+  typedef PRIM_TYPE##16 less_aligned_##ADDR_SPACE##PRIM_TYPE##16               \
+      __attribute__((aligned(sizeof(PRIM_TYPE))));                             \
+  _CLC_OVERLOAD _CLC_DEF void vstore16(PRIM_TYPE##16 vec, size_t offset,       \
+                                       ADDR_SPACE PRIM_TYPE *mem) {            \
+    *((ADDR_SPACE less_aligned_##ADDR_SPACE##PRIM_TYPE##16                     \
+           *)(&mem[16 * offset])) = vec;                                       \
+  }

 #define VSTORE_ADDR_SPACES(__CLC_SCALAR___CLC_GENTYPE)                         \
  VSTORE_VECTORIZE(__CLC_SCALAR___CLC_GENTYPE, __private)                      \
  VSTORE_VECTORIZE(__CLC_SCALAR___CLC_GENTYPE, __local)                        \
-    VSTORE_VECTORIZE(__CLC_SCALAR___CLC_GENTYPE, __global) \
+  VSTORE_VECTORIZE(__CLC_SCALAR___CLC_GENTYPE, __global)

 VSTORE_ADDR_SPACES(char)
 VSTORE_ADDR_SPACES(uchar)
@@ -51,7 +65,6 @@ VSTORE_ADDR_SPACES(long)
 VSTORE_ADDR_SPACES(ulong)
 VSTORE_ADDR_SPACES(float)

-
 #ifdef cl_khr_fp64
 #pragma OPENCL EXTENSION cl_khr_fp64 : enable
 VSTORE_ADDR_SPACES(double)
@@ -64,11 +77,11 @@ VSTORE_ADDR_SPACES(float)

 /* vstore_half are legal even without cl_khr_fp16 */
 #if __clang_major__ < 6
-#define DECLARE_HELPER(STYPE, AS, builtin) void __clc_vstore_half_##STYPE##_helper##AS(STYPE, AS half *);
+#define DECLARE_HELPER(STYPE, AS, builtin)                                     \
+  void __clc_vstore_half_##STYPE##_helper##AS(STYPE, AS half *);
 #else
 #define DECLARE_HELPER(STYPE, AS, __builtin)                                   \
-_CLC_DEF void __clc_vstore_half_##STYPE##_helper##AS(STYPE s, AS half *d) \
-{ \
+  _CLC_DEF void __clc_vstore_half_##STYPE##_helper##AS(STYPE s, AS half *d) {  \
    __builtin(s, d);                                                           \
  }
 #endif
@@ -83,7 +96,8 @@ DECLARE_HELPER(double, __global, __builtin_store_half);
 DECLARE_HELPER(double, __local, __builtin_store_half);
 #endif

-#define VEC_STORE1(STYPE, AS, val, ROUNDF) __clc_vstore_half_##STYPE##_helper##AS (ROUNDF(val), &mem[offset++]);
+#define VEC_STORE1(STYPE, AS, val, ROUNDF)                                     \
+  __clc_vstore_half_##STYPE##_helper##AS(ROUNDF(val), &mem[offset++]);

 #define VEC_STORE2(STYPE, AS, val, ROUNDF)                                     \
  VEC_STORE1(STYPE, AS, val.lo, ROUNDF)                                        \
@@ -103,21 +117,19 @@ DECLARE_HELPER(double, __local, __builtin_store_half);
  VEC_STORE8(STYPE, AS, val.hi, ROUNDF)

 #define __FUNC(SUFFIX, VEC_SIZE, OFFSET, TYPE, STYPE, AS, ROUNDF)              \
-  _CLC_OVERLOAD _CLC_DEF void vstore_half##SUFFIX(TYPE vec, size_t offset, AS half *mem) { \
+  _CLC_OVERLOAD _CLC_DEF void vstore_half##SUFFIX(TYPE vec, size_t offset,     \
+                                                  AS half *mem) {              \
    offset *= VEC_SIZE;                                                        \
    VEC_STORE##VEC_SIZE(STYPE, AS, vec, ROUNDF)                                \
  }                                                                            \
-  _CLC_OVERLOAD _CLC_DEF void vstorea_half##SUFFIX(TYPE vec, size_t offset, AS half *mem) { \
+  _CLC_OVERLOAD _CLC_DEF void vstorea_half##SUFFIX(TYPE vec, size_t offset,    \
+                                                   AS half *mem) {             \
    offset *= OFFSET;                                                          \
    VEC_STORE##VEC_SIZE(STYPE, AS, vec, ROUNDF)                                \
  }

-_CLC_DEF _CLC_OVERLOAD float __clc_noop(float x)
-{
-	return x;
-}
-_CLC_DEF _CLC_OVERLOAD float __clc_rtz(float x)
-{
+_CLC_DEF _CLC_OVERLOAD float __clc_noop(float x) { return x; }
+_CLC_DEF _CLC_OVERLOAD float __clc_rtz(float x) {
  /* Remove lower 13 bits to make sure the number is rounded down */
  int mask = 0xffffe000;
  const int exp = (as_uint(x) >> 23 & 0xff) - 127;
@@ -132,8 +144,7 @@ _CLC_DEF _CLC_OVERLOAD float __clc_rtz(float x)
    return x;
  return as_float(as_uint(x) & mask);
 }
-_CLC_DEF _CLC_OVERLOAD float __clc_rti(float x)
-{
+_CLC_DEF _CLC_OVERLOAD float __clc_rti(float x) {
  const float inf = copysign(INFINITY, x);
  /* Set lower 13 bits */
  int mask = (1 << 13) - 1;
@@ -147,16 +158,13 @@ _CLC_DEF _CLC_OVERLOAD float __clc_rti(float x)
  const float next = nextafter(as_float(as_uint(x) | mask), inf);
  return ((as_uint(x) & mask) == 0) ? x : next;
 }
-_CLC_DEF _CLC_OVERLOAD float __clc_rtn(float x)
-{
+_CLC_DEF _CLC_OVERLOAD float __clc_rtn(float x) {
  return ((as_uint(x) & 0x80000000) == 0) ? __clc_rtz(x) : __clc_rti(x);
 }
-_CLC_DEF _CLC_OVERLOAD float __clc_rtp(float x)
-{
+_CLC_DEF _CLC_OVERLOAD float __clc_rtp(float x) {
  return ((as_uint(x) & 0x80000000) == 0) ? __clc_rti(x) : __clc_rtz(x);
 }
-_CLC_DEF _CLC_OVERLOAD float __clc_rte(float x)
-{
+_CLC_DEF _CLC_OVERLOAD float __clc_rte(float x) {
  /* Mantisa + implicit bit */
  const uint mantissa = (as_uint(x) & 0x7fffff) | (1u << 23);
  const int exp = (as_uint(x) >> 23 & 0xff) - 127;
@@ -178,12 +186,8 @@ _CLC_DEF _CLC_OVERLOAD float __clc_rte(float x)
 }

 #ifdef cl_khr_fp64
-_CLC_DEF _CLC_OVERLOAD double __clc_noop(double x)
-{
-	return x;
-}
-_CLC_DEF _CLC_OVERLOAD double __clc_rtz(double x)
-{
+_CLC_DEF _CLC_OVERLOAD double __clc_noop(double x) { return x; }
+_CLC_DEF _CLC_OVERLOAD double __clc_rtz(double x) {
  /* Remove lower 42 bits to make sure the number is rounded down */
  ulong mask = 0xfffffc0000000000UL;
  const int exp = (as_ulong(x) >> 52 & 0x7ff) - 1023;
@@ -198,8 +202,7 @@ _CLC_DEF _CLC_OVERLOAD double __clc_rtz(double x)
    return x;
  return as_double(as_ulong(x) & mask);
 }
-_CLC_DEF _CLC_OVERLOAD double __clc_rti(double x)
-{
+_CLC_DEF _CLC_OVERLOAD double __clc_rti(double x) {
  const double inf = copysign((double)INFINITY, x);
  /* Set lower 42 bits */
  long mask = (1UL << 42UL) - 1UL;
@@ -213,16 +216,15 @@ _CLC_DEF _CLC_OVERLOAD double __clc_rti(double x)
  const double next = nextafter(as_double(as_ulong(x) | mask), inf);
  return ((as_ulong(x) & mask) == 0) ? x : next;
 }
-_CLC_DEF _CLC_OVERLOAD double __clc_rtn(double x)
-{
-	return ((as_ulong(x) & 0x8000000000000000UL) == 0) ? __clc_rtz(x) : __clc_rti(x);
+_CLC_DEF _CLC_OVERLOAD double __clc_rtn(double x) {
+  return ((as_ulong(x) & 0x8000000000000000UL) == 0) ? __clc_rtz(x)
+                                                     : __clc_rti(x);
 }
-_CLC_DEF _CLC_OVERLOAD double __clc_rtp(double x)
-{
-	return ((as_ulong(x) & 0x8000000000000000UL) == 0) ? __clc_rti(x) : __clc_rtz(x);
+_CLC_DEF _CLC_OVERLOAD double __clc_rtp(double x) {
+  return ((as_ulong(x) & 0x8000000000000000UL) == 0) ? __clc_rti(x)
+                                                     : __clc_rtz(x);
 }
-_CLC_DEF _CLC_OVERLOAD double __clc_rte(double x)
-{
+_CLC_DEF _CLC_OVERLOAD double __clc_rte(double x) {
  /* Mantisa + implicit bit */
  const ulong mantissa = (as_ulong(x) & 0xfffffffffffff) | (1UL << 52);
  const int exp = (as_ulong(x) >> 52 & 0x7ff) - 1023;
--- a/libclc/generic/lib/shared/vstore_half.inc
+++ b/libclc/generic/lib/shared/vstore_half.inc
@@ -16,9 +16,12 @@
 #define __CLC_OFFSET __CLC_VECSIZE
 #endif

-  FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE, __CLC_SCALAR_GENTYPE, __private);
-  FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE, __CLC_SCALAR_GENTYPE, __local);
-  FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE, __CLC_SCALAR_GENTYPE, __global);
+FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE,
+     __CLC_SCALAR_GENTYPE, __private);
+FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE,
+     __CLC_SCALAR_GENTYPE, __local);
+FUNC(__CLC_VECSIZE, __CLC_VECSIZE, __CLC_OFFSET, __CLC_GENTYPE,
+     __CLC_SCALAR_GENTYPE, __global);

 #undef __CLC_OFFSET
 #else