Lines Matching full:reg

38     int16x4_t res_16 = vqmovn_s32(input.reg[0]);
40 output.reg[0] = vget_lane_u32(vreinterpret_u32_u8(res_8), 0);
58 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
59 output.reg[0] = vqmovun_s16(res_16);
77 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
79 vcombine_s16(vqmovn_s32(input.reg[2]), vqmovn_s32(input.reg[3]));
80 output.reg[0] = vqmovun_s16(res_16_0);
81 output.reg[1] = vqmovun_s16(res_16_1);
100 res_16[i] = vcombine_s16(vqmovn_s32(input.reg[2 * i]),
101 vqmovn_s32(input.reg[2 * i + 1]));
104 output.reg[i] = vqmovun_s16(res_16[i]);
122 int16x4_t res_16 = vqmovn_s32(input.reg[0]);
124 output.reg[0] = vget_lane_s32(vreinterpret_s32_s8(res_8), 0);
142 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
143 output.reg[0] = vqmovn_s16(res_16);
161 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
163 vcombine_s16(vqmovn_s32(input.reg[2]), vqmovn_s32(input.reg[3]));
164 output.reg[0] = vqmovn_s16(res_16_0);
165 output.reg[1] = vqmovn_s16(res_16_1);
184 res_16[i] = vcombine_s16(vqmovn_s32(input.reg[2 * i]),
185 vqmovn_s32(input.reg[2 * i + 1]));
188 output.reg[i] = vqmovn_s16(res_16[i]);
206 output.reg[0] = vqmovn_s32(input.reg[0]);
223 output.reg[0] =
224 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
241 output.reg[0] =
242 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
243 output.reg[1] =
244 vcombine_s16(vqmovn_s32(input.reg[2]), vqmovn_s32(input.reg[3]));
261 output.reg[0] =
262 vcombine_s16(vqmovn_s32(input.reg[0]), vqmovn_s32(input.reg[1]));
263 output.reg[1] =
264 vcombine_s16(vqmovn_s32(input.reg[2]), vqmovn_s32(input.reg[3]));
265 output.reg[2] =
266 vcombine_s16(vqmovn_s32(input.reg[4]), vqmovn_s32(input.reg[5]));
267 output.reg[3] =
268 vcombine_s16(vqmovn_s32(input.reg[6]), vqmovn_s32(input.reg[7]));
278 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
279 StoreInt32x4(dst->data(row + 4, col), src.buf.reg[1]);
281 vst1q_lane_s32(dst->data(row + 0, col), src.buf.reg[0], 0);
282 vst1q_lane_s32(dst->data(row + 1, col), src.buf.reg[0], 1);
283 vst1q_lane_s32(dst->data(row + 2, col), src.buf.reg[0], 2);
284 vst1q_lane_s32(dst->data(row + 3, col), src.buf.reg[0], 3);
285 vst1q_lane_s32(dst->data(row + 4, col), src.buf.reg[1], 0);
286 vst1q_lane_s32(dst->data(row + 5, col), src.buf.reg[1], 1);
287 vst1q_lane_s32(dst->data(row + 6, col), src.buf.reg[1], 2);
288 vst1q_lane_s32(dst->data(row + 7, col), src.buf.reg[1], 3);
298 StoreInt16x4(dst->data(row, col), src.buf.reg[0]);
300 vst1_lane_s16(dst->data(row + 0, col), src.buf.reg[0], 0);
301 vst1_lane_s16(dst->data(row + 1, col), src.buf.reg[0], 1);
302 vst1_lane_s16(dst->data(row + 2, col), src.buf.reg[0], 2);
303 vst1_lane_s16(dst->data(row + 3, col), src.buf.reg[0], 3);
313 StoreInt16x8(dst->data(row, col), src.buf.reg[0]);
315 vst1q_lane_s16(dst->data(row + 0, col), src.buf.reg[0], 0);
316 vst1q_lane_s16(dst->data(row + 1, col), src.buf.reg[0], 1);
317 vst1q_lane_s16(dst->data(row + 2, col), src.buf.reg[0], 2);
318 vst1q_lane_s16(dst->data(row + 3, col), src.buf.reg[0], 3);
319 vst1q_lane_s16(dst->data(row + 4, col), src.buf.reg[0], 4);
320 vst1q_lane_s16(dst->data(row + 5, col), src.buf.reg[0], 5);
321 vst1q_lane_s16(dst->data(row + 6, col), src.buf.reg[0], 6);
322 vst1q_lane_s16(dst->data(row + 7, col), src.buf.reg[0], 7);
328 const int32x4x2_t t0 = vtrnq_s32(src.buf.reg[0], src.buf.reg[1]);
329 const int32x4x2_t t1 = vtrnq_s32(src.buf.reg[2], src.buf.reg[3]);
331 result.buf.reg[0] =
333 result.buf.reg[1] =
335 result.buf.reg[2] =
337 result.buf.reg[3] =
351 vst1q_s32(dst_ptr + i * stride, block.buf.reg[i]);
361 vst1_s16(dst->data(row, col + 0), vget_low_s16(src.buf.reg[0]));
362 vst1_s16(dst->data(row, col + 1), vget_high_s16(src.buf.reg[0]));
363 vst1_s16(dst->data(row, col + 2), vget_low_s16(src.buf.reg[1]));
364 vst1_s16(dst->data(row, col + 3), vget_high_s16(src.buf.reg[1]));
367 vtrn_s16(vget_low_s16(src.buf.reg[0]), vget_high_s16(src.buf.reg[0]));
369 vtrn_s16(vget_low_s16(src.buf.reg[1]), vget_high_s16(src.buf.reg[1]));
393 vst1q_s32(dst_ptr + i * col_stride + 0, src.buf.reg[2 * i + 0]);
394 vst1q_s32(dst_ptr + i * col_stride + 4, src.buf.reg[2 * i + 1]);
399 top.buf.reg[0] = src.buf.reg[0];
400 top.buf.reg[1] = src.buf.reg[2];
401 top.buf.reg[2] = src.buf.reg[4];
402 top.buf.reg[3] = src.buf.reg[6];
405 vst1q_s32(dst_ptr + i * row_stride, transpose_top.buf.reg[i]);
408 bottom.buf.reg[0] = src.buf.reg[1];
409 bottom.buf.reg[1] = src.buf.reg[3];
410 bottom.buf.reg[2] = src.buf.reg[5];
411 bottom.buf.reg[3] = src.buf.reg[7];
414 vst1q_s32(dst_ptr + (i + 4) * row_stride, transpose_bottom.buf.reg[i]);
425 vst1q_s16(dst->data(row, col + 0), src.buf.reg[0]);
426 vst1q_s16(dst->data(row, col + 1), src.buf.reg[1]);
427 vst1q_s16(dst->data(row, col + 2), src.buf.reg[2]);
428 vst1q_s16(dst->data(row, col + 3), src.buf.reg[3]);
430 const int16x8x2_t t0 = vtrnq_s16(src.buf.reg[0], src.buf.reg[1]);
431 const int16x8x2_t t1 = vtrnq_s16(src.buf.reg[2], src.buf.reg[3]);
464 vst1q_s32(dst_ptr + i * col_stride, src.buf.reg[2 * i]);
465 vst1q_s32(dst_ptr + i * col_stride + 4, src.buf.reg[2 * i + 1]);
470 top_left.buf.reg[0] = src.buf.reg[0];
471 top_left.buf.reg[1] = src.buf.reg[2];
472 top_left.buf.reg[2] = src.buf.reg[4];
473 top_left.buf.reg[3] = src.buf.reg[6];
476 vst1q_s32(dst_ptr + i * row_stride, transpose_top_left.buf.reg[i]);
479 bottom_left.buf.reg[0] = src.buf.reg[1];
480 bottom_left.buf.reg[1] = src.buf.reg[3];
481 bottom_left.buf.reg[2] = src.buf.reg[5];
482 bottom_left.buf.reg[3] = src.buf.reg[7];
486 transpose_bottom_left.buf.reg[i]);
489 top_right.buf.reg[0] = src.buf.reg[8];
490 top_right.buf.reg[1] = src.buf.reg[10];
491 top_right.buf.reg[2] = src.buf.reg[12];
492 top_right.buf.reg[3] = src.buf.reg[14];
495 vst1q_s32(dst_ptr + i * row_stride + 4, transpose_top_right.buf.reg[i]);
498 bottom_right.buf.reg[0] = src.buf.reg[9];
499 bottom_right.buf.reg[1] = src.buf.reg[11];
500 bottom_right.buf.reg[2] = src.buf.reg[13];
501 bottom_right.buf.reg[3] = src.buf.reg[15];
505 transpose_bottom_right.buf.reg[i]);
517 vst1q_s32(dst_ptr, src.buf.reg[0]);
520 vst1q_lane_s32(dst_ptr + 0 * row_stride, src.buf.reg[0], 0);
521 vst1q_lane_s32(dst_ptr + 1 * row_stride, src.buf.reg[0], 1);
522 vst1q_lane_s32(dst_ptr + 2 * row_stride, src.buf.reg[0], 2);
523 vst1q_lane_s32(dst_ptr + 3 * row_stride, src.buf.reg[0], 3);
534 vst1q_s32(dst_ptr, src.buf.reg[0]);
537 vst1q_lane_s32(dst_ptr + 0 * col_stride, src.buf.reg[0], 0);
538 vst1q_lane_s32(dst_ptr + 1 * col_stride, src.buf.reg[0], 1);
539 vst1q_lane_s32(dst_ptr + 2 * col_stride, src.buf.reg[0], 2);
540 vst1q_lane_s32(dst_ptr + 3 * col_stride, src.buf.reg[0], 3);
551 vst1_s16(dst_ptr, src.buf.reg[0]);
554 vst1_lane_s16(dst_ptr + 0 * col_stride, src.buf.reg[0], 0);
555 vst1_lane_s16(dst_ptr + 1 * col_stride, src.buf.reg[0], 1);
556 vst1_lane_s16(dst_ptr + 2 * col_stride, src.buf.reg[0], 2);
557 vst1_lane_s16(dst_ptr + 3 * col_stride, src.buf.reg[0], 3);
566 const std::uint32_t src_reg = src.buf.reg[0];
578 *dst->data(row, col + i) = (src.buf.reg[0] >> (8 * i));
589 vst1_u8(dst_ptr, src.buf.reg[0]);
592 vst1_lane_u8(dst_ptr + 0 * row_stride, src.buf.reg[0], 0);
593 vst1_lane_u8(dst_ptr + 1 * row_stride, src.buf.reg[0], 1);
594 vst1_lane_u8(dst_ptr + 2 * row_stride, src.buf.reg[0], 2);
595 vst1_lane_u8(dst_ptr + 3 * row_stride, src.buf.reg[0], 3);
596 vst1_lane_u8(dst_ptr + 4 * row_stride, src.buf.reg[0], 4);
597 vst1_lane_u8(dst_ptr + 5 * row_stride, src.buf.reg[0], 5);
598 vst1_lane_u8(dst_ptr + 6 * row_stride, src.buf.reg[0], 6);
599 vst1_lane_u8(dst_ptr + 7 * row_stride, src.buf.reg[0], 7);
613 src.buf.reg[i], 0);
615 src.buf.reg[i], 1);
617 src.buf.reg[i], 2);
619 src.buf.reg[i], 3);
621 src.buf.reg[i], 4);
623 src.buf.reg[i], 5);
625 src.buf.reg[i], 6);
627 src.buf.reg[i], 7);
640 vst1_u8(dst_ptr + i * col_stride, src.buf.reg[i]);
646 vst1_lane_u8(col_ptr + 0 * row_stride, src.buf.reg[i], 0);
647 vst1_lane_u8(col_ptr + 1 * row_stride, src.buf.reg[i], 1);
648 vst1_lane_u8(col_ptr + 2 * row_stride, src.buf.reg[i], 2);
649 vst1_lane_u8(col_ptr + 3 * row_stride, src.buf.reg[i], 3);
650 vst1_lane_u8(col_ptr + 4 * row_stride, src.buf.reg[i], 4);
651 vst1_lane_u8(col_ptr + 5 * row_stride, src.buf.reg[i], 5);
652 vst1_lane_u8(col_ptr + 6 * row_stride, src.buf.reg[i], 6);
653 vst1_lane_u8(col_ptr + 7 * row_stride, src.buf.reg[i], 7);
661 a[0] = vtrn_u8(src.buf.reg[0], src.buf.reg[1]);
662 a[1] = vtrn_u8(src.buf.reg[2], src.buf.reg[3]);
663 a[2] = vtrn_u8(src.buf.reg[4], src.buf.reg[5]);
664 a[3] = vtrn_u8(src.buf.reg[6], src.buf.reg[7]);
684 result.buf.reg[0] = vreinterpret_u8_u32(c[0].val[0]);
685 result.buf.reg[1] = vreinterpret_u8_u32(c[1].val[0]);
686 result.buf.reg[2] = vreinterpret_u8_u32(c[2].val[0]);
687 result.buf.reg[3] = vreinterpret_u8_u32(c[3].val[0]);
688 result.buf.reg[4] = vreinterpret_u8_u32(c[0].val[1]);
689 result.buf.reg[5] = vreinterpret_u8_u32(c[1].val[1]);
690 result.buf.reg[6] = vreinterpret_u8_u32(c[2].val[1]);
691 result.buf.reg[7] = vreinterpret_u8_u32(c[3].val[1]);
704 vst1_u8(dst_ptr + i * stride, block.buf.reg[i]);
713 const std::int32_t src_reg = src.buf.reg[0];
725 *dst->data(row, col + i) = (src.buf.reg[0] >> (8 * i));
736 vst1_s8(dst_ptr, src.buf.reg[0]);
739 vst1_lane_s8(dst_ptr + 0 * row_stride, src.buf.reg[0], 0);
740 vst1_lane_s8(dst_ptr + 1 * row_stride, src.buf.reg[0], 1);
741 vst1_lane_s8(dst_ptr + 2 * row_stride, src.buf.reg[0], 2);
742 vst1_lane_s8(dst_ptr + 3 * row_stride, src.buf.reg[0], 3);
743 vst1_lane_s8(dst_ptr + 4 * row_stride, src.buf.reg[0], 4);
744 vst1_lane_s8(dst_ptr + 5 * row_stride, src.buf.reg[0], 5);
745 vst1_lane_s8(dst_ptr + 6 * row_stride, src.buf.reg[0], 6);
746 vst1_lane_s8(dst_ptr + 7 * row_stride, src.buf.reg[0], 7);
760 src.buf.reg[i], 0);
762 src.buf.reg[i], 1);
764 src.buf.reg[i], 2);
766 src.buf.reg[i], 3);
768 src.buf.reg[i], 4);
770 src.buf.reg[i], 5);
772 src.buf.reg[i], 6);
774 src.buf.reg[i], 7);
787 vst1_s8(dst_ptr + i * col_stride, src.buf.reg[i]);
793 vst1_lane_s8(col_ptr + 0 * row_stride, src.buf.reg[i], 0);
794 vst1_lane_s8(col_ptr + 1 * row_stride, src.buf.reg[i], 1);
795 vst1_lane_s8(col_ptr + 2 * row_stride, src.buf.reg[i], 2);
796 vst1_lane_s8(col_ptr + 3 * row_stride, src.buf.reg[i], 3);
797 vst1_lane_s8(col_ptr + 4 * row_stride, src.buf.reg[i], 4);
798 vst1_lane_s8(col_ptr + 5 * row_stride, src.buf.reg[i], 5);
799 vst1_lane_s8(col_ptr + 6 * row_stride, src.buf.reg[i], 6);
800 vst1_lane_s8(col_ptr + 7 * row_stride, src.buf.reg[i], 7);
808 a[0] = vtrn_s8(src.buf.reg[0], src.buf.reg[1]);
809 a[1] = vtrn_s8(src.buf.reg[2], src.buf.reg[3]);
810 a[2] = vtrn_s8(src.buf.reg[4], src.buf.reg[5]);
811 a[3] = vtrn_s8(src.buf.reg[6], src.buf.reg[7]);
831 result.buf.reg[0] = vreinterpret_s8_s32(c[0].val[0]);
832 result.buf.reg[1] = vreinterpret_s8_s32(c[1].val[0]);
833 result.buf.reg[2] = vreinterpret_s8_s32(c[2].val[0]);
834 result.buf.reg[3] = vreinterpret_s8_s32(c[3].val[0]);
835 result.buf.reg[4] = vreinterpret_s8_s32(c[0].val[1]);
836 result.buf.reg[5] = vreinterpret_s8_s32(c[1].val[1]);
837 result.buf.reg[6] = vreinterpret_s8_s32(c[2].val[1]);
838 result.buf.reg[7] = vreinterpret_s8_s32(c[3].val[1]);
851 vst1_s8(dst_ptr + i * stride, block.buf.reg[i]);
861 vst1q_s16(dst->data(row, col + 0), src.buf.reg[0]);
862 vst1q_s16(dst->data(row, col + 1), src.buf.reg[1]);
863 vst1q_s16(dst->data(row, col + 2), src.buf.reg[2]);
864 vst1q_s16(dst->data(row, col + 3), src.buf.reg[3]);
865 vst1q_s16(dst->data(row, col + 4), src.buf.reg[4]);
866 vst1q_s16(dst->data(row, col + 5), src.buf.reg[5]);
867 vst1q_s16(dst->data(row, col + 6), src.buf.reg[6]);
868 vst1q_s16(dst->data(row, col + 7), src.buf.reg[7]);
871 a[0] = vtrnq_s16(src.buf.reg[0], src.buf.reg[1]);
872 a[1] = vtrnq_s16(src.buf.reg[2], src.buf.reg[3]);
873 a[2] = vtrnq_s16(src.buf.reg[4], src.buf.reg[5]);
874 a[3] = vtrnq_s16(src.buf.reg[6], src.buf.reg[7]);