1; 2; Copyright (c) 2013 The WebM project authors. All Rights Reserved. 3; 4; Use of this source code is governed by a BSD-style license 5; that can be found in the LICENSE file in the root of the source 6; tree. An additional intellectual property rights grant can be found 7; in the file PATENTS. All contributing project authors may 8; be found in the AUTHORS file in the root of the source tree. 9; 10 11 EXPORT |vp9_idct8x8_64_add_neon| 12 EXPORT |vp9_idct8x8_10_add_neon| 13 ARM 14 REQUIRE8 15 PRESERVE8 16 17 AREA ||.text||, CODE, READONLY, ALIGN=2 18 19 ; Parallel 1D IDCT on all the columns of a 8x8 16bit data matrix which are 20 ; loaded in q8-q15. The output will be stored back into q8-q15 registers. 21 ; This macro will touch q0-q7 registers and use them as buffer during 22 ; calculation. 23 MACRO 24 IDCT8x8_1D 25 ; stage 1 26 vdup.16 d0, r3 ; duplicate cospi_28_64 27 vdup.16 d1, r4 ; duplicate cospi_4_64 28 vdup.16 d2, r5 ; duplicate cospi_12_64 29 vdup.16 d3, r6 ; duplicate cospi_20_64 30 31 ; input[1] * cospi_28_64 32 vmull.s16 q2, d18, d0 33 vmull.s16 q3, d19, d0 34 35 ; input[5] * cospi_12_64 36 vmull.s16 q5, d26, d2 37 vmull.s16 q6, d27, d2 38 39 ; input[1]*cospi_28_64-input[7]*cospi_4_64 40 vmlsl.s16 q2, d30, d1 41 vmlsl.s16 q3, d31, d1 42 43 ; input[5] * cospi_12_64 - input[3] * cospi_20_64 44 vmlsl.s16 q5, d22, d3 45 vmlsl.s16 q6, d23, d3 46 47 ; dct_const_round_shift(input_dc * cospi_16_64) 48 vqrshrn.s32 d8, q2, #14 ; >> 14 49 vqrshrn.s32 d9, q3, #14 ; >> 14 50 51 ; dct_const_round_shift(input_dc * cospi_16_64) 52 vqrshrn.s32 d10, q5, #14 ; >> 14 53 vqrshrn.s32 d11, q6, #14 ; >> 14 54 55 ; input[1] * cospi_4_64 56 vmull.s16 q2, d18, d1 57 vmull.s16 q3, d19, d1 58 59 ; input[5] * cospi_20_64 60 vmull.s16 q9, d26, d3 61 vmull.s16 q13, d27, d3 62 63 ; input[1]*cospi_4_64+input[7]*cospi_28_64 64 vmlal.s16 q2, d30, d0 65 vmlal.s16 q3, d31, d0 66 67 ; input[5] * cospi_20_64 + input[3] * cospi_12_64 68 vmlal.s16 q9, d22, d2 69 vmlal.s16 q13, d23, d2 70 71 ; dct_const_round_shift(input_dc * cospi_16_64) 72 vqrshrn.s32 d14, q2, #14 ; >> 14 73 vqrshrn.s32 d15, q3, #14 ; >> 14 74 75 ; stage 2 & stage 3 - even half 76 vdup.16 d0, r7 ; duplicate cospi_16_64 77 78 ; dct_const_round_shift(input_dc * cospi_16_64) 79 vqrshrn.s32 d12, q9, #14 ; >> 14 80 vqrshrn.s32 d13, q13, #14 ; >> 14 81 82 ; input[0] * cospi_16_64 83 vmull.s16 q2, d16, d0 84 vmull.s16 q3, d17, d0 85 86 ; input[0] * cospi_16_64 87 vmull.s16 q13, d16, d0 88 vmull.s16 q15, d17, d0 89 90 ; (input[0] + input[2]) * cospi_16_64 91 vmlal.s16 q2, d24, d0 92 vmlal.s16 q3, d25, d0 93 94 ; (input[0] - input[2]) * cospi_16_64 95 vmlsl.s16 q13, d24, d0 96 vmlsl.s16 q15, d25, d0 97 98 vdup.16 d0, r8 ; duplicate cospi_24_64 99 vdup.16 d1, r9 ; duplicate cospi_8_64 100 101 ; dct_const_round_shift(input_dc * cospi_16_64) 102 vqrshrn.s32 d18, q2, #14 ; >> 14 103 vqrshrn.s32 d19, q3, #14 ; >> 14 104 105 ; dct_const_round_shift(input_dc * cospi_16_64) 106 vqrshrn.s32 d22, q13, #14 ; >> 14 107 vqrshrn.s32 d23, q15, #14 ; >> 14 108 109 ; input[1] * cospi_24_64 - input[3] * cospi_8_64 110 ; input[1] * cospi_24_64 111 vmull.s16 q2, d20, d0 112 vmull.s16 q3, d21, d0 113 114 ; input[1] * cospi_8_64 115 vmull.s16 q8, d20, d1 116 vmull.s16 q12, d21, d1 117 118 ; input[1] * cospi_24_64 - input[3] * cospi_8_64 119 vmlsl.s16 q2, d28, d1 120 vmlsl.s16 q3, d29, d1 121 122 ; input[1] * cospi_8_64 + input[3] * cospi_24_64 123 vmlal.s16 q8, d28, d0 124 vmlal.s16 q12, d29, d0 125 126 ; dct_const_round_shift(input_dc * cospi_16_64) 127 vqrshrn.s32 d26, q2, #14 ; >> 14 128 vqrshrn.s32 d27, q3, #14 ; >> 14 129 130 ; dct_const_round_shift(input_dc * cospi_16_64) 131 vqrshrn.s32 d30, q8, #14 ; >> 14 132 vqrshrn.s32 d31, q12, #14 ; >> 14 133 134 vadd.s16 q0, q9, q15 ; output[0] = step[0] + step[3] 135 vadd.s16 q1, q11, q13 ; output[1] = step[1] + step[2] 136 vsub.s16 q2, q11, q13 ; output[2] = step[1] - step[2] 137 vsub.s16 q3, q9, q15 ; output[3] = step[0] - step[3] 138 139 ; stage 3 -odd half 140 vdup.16 d16, r7 ; duplicate cospi_16_64 141 142 ; stage 2 - odd half 143 vsub.s16 q13, q4, q5 ; step2[5] = step1[4] - step1[5] 144 vadd.s16 q4, q4, q5 ; step2[4] = step1[4] + step1[5] 145 vsub.s16 q14, q7, q6 ; step2[6] = -step1[6] + step1[7] 146 vadd.s16 q7, q7, q6 ; step2[7] = step1[6] + step1[7] 147 148 ; step2[6] * cospi_16_64 149 vmull.s16 q9, d28, d16 150 vmull.s16 q10, d29, d16 151 152 ; step2[6] * cospi_16_64 153 vmull.s16 q11, d28, d16 154 vmull.s16 q12, d29, d16 155 156 ; (step2[6] - step2[5]) * cospi_16_64 157 vmlsl.s16 q9, d26, d16 158 vmlsl.s16 q10, d27, d16 159 160 ; (step2[5] + step2[6]) * cospi_16_64 161 vmlal.s16 q11, d26, d16 162 vmlal.s16 q12, d27, d16 163 164 ; dct_const_round_shift(input_dc * cospi_16_64) 165 vqrshrn.s32 d10, q9, #14 ; >> 14 166 vqrshrn.s32 d11, q10, #14 ; >> 14 167 168 ; dct_const_round_shift(input_dc * cospi_16_64) 169 vqrshrn.s32 d12, q11, #14 ; >> 14 170 vqrshrn.s32 d13, q12, #14 ; >> 14 171 172 ; stage 4 173 vadd.s16 q8, q0, q7 ; output[0] = step1[0] + step1[7]; 174 vadd.s16 q9, q1, q6 ; output[1] = step1[1] + step1[6]; 175 vadd.s16 q10, q2, q5 ; output[2] = step1[2] + step1[5]; 176 vadd.s16 q11, q3, q4 ; output[3] = step1[3] + step1[4]; 177 vsub.s16 q12, q3, q4 ; output[4] = step1[3] - step1[4]; 178 vsub.s16 q13, q2, q5 ; output[5] = step1[2] - step1[5]; 179 vsub.s16 q14, q1, q6 ; output[6] = step1[1] - step1[6]; 180 vsub.s16 q15, q0, q7 ; output[7] = step1[0] - step1[7]; 181 MEND 182 183 ; Transpose a 8x8 16bit data matrix. Datas are loaded in q8-q15. 184 MACRO 185 TRANSPOSE8X8 186 vswp d17, d24 187 vswp d23, d30 188 vswp d21, d28 189 vswp d19, d26 190 vtrn.32 q8, q10 191 vtrn.32 q9, q11 192 vtrn.32 q12, q14 193 vtrn.32 q13, q15 194 vtrn.16 q8, q9 195 vtrn.16 q10, q11 196 vtrn.16 q12, q13 197 vtrn.16 q14, q15 198 MEND 199 200 AREA Block, CODE, READONLY ; name this block of code 201;void vp9_idct8x8_64_add_neon(int16_t *input, uint8_t *dest, int dest_stride) 202; 203; r0 int16_t input 204; r1 uint8_t *dest 205; r2 int dest_stride) 206 207|vp9_idct8x8_64_add_neon| PROC 208 push {r4-r9} 209 vpush {d8-d15} 210 vld1.s16 {q8,q9}, [r0]! 211 vld1.s16 {q10,q11}, [r0]! 212 vld1.s16 {q12,q13}, [r0]! 213 vld1.s16 {q14,q15}, [r0]! 214 215 ; transpose the input data 216 TRANSPOSE8X8 217 218 ; generate cospi_28_64 = 3196 219 mov r3, #0x0c00 220 add r3, #0x7c 221 222 ; generate cospi_4_64 = 16069 223 mov r4, #0x3e00 224 add r4, #0xc5 225 226 ; generate cospi_12_64 = 13623 227 mov r5, #0x3500 228 add r5, #0x37 229 230 ; generate cospi_20_64 = 9102 231 mov r6, #0x2300 232 add r6, #0x8e 233 234 ; generate cospi_16_64 = 11585 235 mov r7, #0x2d00 236 add r7, #0x41 237 238 ; generate cospi_24_64 = 6270 239 mov r8, #0x1800 240 add r8, #0x7e 241 242 ; generate cospi_8_64 = 15137 243 mov r9, #0x3b00 244 add r9, #0x21 245 246 ; First transform rows 247 IDCT8x8_1D 248 249 ; Transpose the matrix 250 TRANSPOSE8X8 251 252 ; Then transform columns 253 IDCT8x8_1D 254 255 ; ROUND_POWER_OF_TWO(temp_out[j], 5) 256 vrshr.s16 q8, q8, #5 257 vrshr.s16 q9, q9, #5 258 vrshr.s16 q10, q10, #5 259 vrshr.s16 q11, q11, #5 260 vrshr.s16 q12, q12, #5 261 vrshr.s16 q13, q13, #5 262 vrshr.s16 q14, q14, #5 263 vrshr.s16 q15, q15, #5 264 265 ; save dest pointer 266 mov r0, r1 267 268 ; load destination data 269 vld1.64 {d0}, [r1], r2 270 vld1.64 {d1}, [r1], r2 271 vld1.64 {d2}, [r1], r2 272 vld1.64 {d3}, [r1], r2 273 vld1.64 {d4}, [r1], r2 274 vld1.64 {d5}, [r1], r2 275 vld1.64 {d6}, [r1], r2 276 vld1.64 {d7}, [r1] 277 278 ; ROUND_POWER_OF_TWO(temp_out[j], 5) + dest[j * dest_stride + i] 279 vaddw.u8 q8, q8, d0 280 vaddw.u8 q9, q9, d1 281 vaddw.u8 q10, q10, d2 282 vaddw.u8 q11, q11, d3 283 vaddw.u8 q12, q12, d4 284 vaddw.u8 q13, q13, d5 285 vaddw.u8 q14, q14, d6 286 vaddw.u8 q15, q15, d7 287 288 ; clip_pixel 289 vqmovun.s16 d0, q8 290 vqmovun.s16 d1, q9 291 vqmovun.s16 d2, q10 292 vqmovun.s16 d3, q11 293 vqmovun.s16 d4, q12 294 vqmovun.s16 d5, q13 295 vqmovun.s16 d6, q14 296 vqmovun.s16 d7, q15 297 298 ; store the data 299 vst1.64 {d0}, [r0], r2 300 vst1.64 {d1}, [r0], r2 301 vst1.64 {d2}, [r0], r2 302 vst1.64 {d3}, [r0], r2 303 vst1.64 {d4}, [r0], r2 304 vst1.64 {d5}, [r0], r2 305 vst1.64 {d6}, [r0], r2 306 vst1.64 {d7}, [r0], r2 307 308 vpop {d8-d15} 309 pop {r4-r9} 310 bx lr 311 ENDP ; |vp9_idct8x8_64_add_neon| 312 313;void vp9_idct8x8_10_add_neon(int16_t *input, uint8_t *dest, int dest_stride) 314; 315; r0 int16_t input 316; r1 uint8_t *dest 317; r2 int dest_stride) 318 319|vp9_idct8x8_10_add_neon| PROC 320 push {r4-r9} 321 vpush {d8-d15} 322 vld1.s16 {q8,q9}, [r0]! 323 vld1.s16 {q10,q11}, [r0]! 324 vld1.s16 {q12,q13}, [r0]! 325 vld1.s16 {q14,q15}, [r0]! 326 327 ; transpose the input data 328 TRANSPOSE8X8 329 330 ; generate cospi_28_64 = 3196 331 mov r3, #0x0c00 332 add r3, #0x7c 333 334 ; generate cospi_4_64 = 16069 335 mov r4, #0x3e00 336 add r4, #0xc5 337 338 ; generate cospi_12_64 = 13623 339 mov r5, #0x3500 340 add r5, #0x37 341 342 ; generate cospi_20_64 = 9102 343 mov r6, #0x2300 344 add r6, #0x8e 345 346 ; generate cospi_16_64 = 11585 347 mov r7, #0x2d00 348 add r7, #0x41 349 350 ; generate cospi_24_64 = 6270 351 mov r8, #0x1800 352 add r8, #0x7e 353 354 ; generate cospi_8_64 = 15137 355 mov r9, #0x3b00 356 add r9, #0x21 357 358 ; First transform rows 359 ; stage 1 360 ; The following instructions use vqrdmulh to do the 361 ; dct_const_round_shift(input[1] * cospi_28_64). vqrdmulh will do doubling 362 ; multiply and shift the result by 16 bits instead of 14 bits. So we need 363 ; to double the constants before multiplying to compensate this. 364 mov r12, r3, lsl #1 365 vdup.16 q0, r12 ; duplicate cospi_28_64*2 366 mov r12, r4, lsl #1 367 vdup.16 q1, r12 ; duplicate cospi_4_64*2 368 369 ; dct_const_round_shift(input[1] * cospi_28_64) 370 vqrdmulh.s16 q4, q9, q0 371 372 mov r12, r6, lsl #1 373 rsb r12, #0 374 vdup.16 q0, r12 ; duplicate -cospi_20_64*2 375 376 ; dct_const_round_shift(input[1] * cospi_4_64) 377 vqrdmulh.s16 q7, q9, q1 378 379 mov r12, r5, lsl #1 380 vdup.16 q1, r12 ; duplicate cospi_12_64*2 381 382 ; dct_const_round_shift(- input[3] * cospi_20_64) 383 vqrdmulh.s16 q5, q11, q0 384 385 mov r12, r7, lsl #1 386 vdup.16 q0, r12 ; duplicate cospi_16_64*2 387 388 ; dct_const_round_shift(input[3] * cospi_12_64) 389 vqrdmulh.s16 q6, q11, q1 390 391 ; stage 2 & stage 3 - even half 392 mov r12, r8, lsl #1 393 vdup.16 q1, r12 ; duplicate cospi_24_64*2 394 395 ; dct_const_round_shift(input_dc * cospi_16_64) 396 vqrdmulh.s16 q9, q8, q0 397 398 mov r12, r9, lsl #1 399 vdup.16 q0, r12 ; duplicate cospi_8_64*2 400 401 ; dct_const_round_shift(input[1] * cospi_24_64) 402 vqrdmulh.s16 q13, q10, q1 403 404 ; dct_const_round_shift(input[1] * cospi_8_64) 405 vqrdmulh.s16 q15, q10, q0 406 407 ; stage 3 -odd half 408 vdup.16 d16, r7 ; duplicate cospi_16_64 409 410 vadd.s16 q0, q9, q15 ; output[0] = step[0] + step[3] 411 vadd.s16 q1, q9, q13 ; output[1] = step[1] + step[2] 412 vsub.s16 q2, q9, q13 ; output[2] = step[1] - step[2] 413 vsub.s16 q3, q9, q15 ; output[3] = step[0] - step[3] 414 415 ; stage 2 - odd half 416 vsub.s16 q13, q4, q5 ; step2[5] = step1[4] - step1[5] 417 vadd.s16 q4, q4, q5 ; step2[4] = step1[4] + step1[5] 418 vsub.s16 q14, q7, q6 ; step2[6] = -step1[6] + step1[7] 419 vadd.s16 q7, q7, q6 ; step2[7] = step1[6] + step1[7] 420 421 ; step2[6] * cospi_16_64 422 vmull.s16 q9, d28, d16 423 vmull.s16 q10, d29, d16 424 425 ; step2[6] * cospi_16_64 426 vmull.s16 q11, d28, d16 427 vmull.s16 q12, d29, d16 428 429 ; (step2[6] - step2[5]) * cospi_16_64 430 vmlsl.s16 q9, d26, d16 431 vmlsl.s16 q10, d27, d16 432 433 ; (step2[5] + step2[6]) * cospi_16_64 434 vmlal.s16 q11, d26, d16 435 vmlal.s16 q12, d27, d16 436 437 ; dct_const_round_shift(input_dc * cospi_16_64) 438 vqrshrn.s32 d10, q9, #14 ; >> 14 439 vqrshrn.s32 d11, q10, #14 ; >> 14 440 441 ; dct_const_round_shift(input_dc * cospi_16_64) 442 vqrshrn.s32 d12, q11, #14 ; >> 14 443 vqrshrn.s32 d13, q12, #14 ; >> 14 444 445 ; stage 4 446 vadd.s16 q8, q0, q7 ; output[0] = step1[0] + step1[7]; 447 vadd.s16 q9, q1, q6 ; output[1] = step1[1] + step1[6]; 448 vadd.s16 q10, q2, q5 ; output[2] = step1[2] + step1[5]; 449 vadd.s16 q11, q3, q4 ; output[3] = step1[3] + step1[4]; 450 vsub.s16 q12, q3, q4 ; output[4] = step1[3] - step1[4]; 451 vsub.s16 q13, q2, q5 ; output[5] = step1[2] - step1[5]; 452 vsub.s16 q14, q1, q6 ; output[6] = step1[1] - step1[6]; 453 vsub.s16 q15, q0, q7 ; output[7] = step1[0] - step1[7]; 454 455 ; Transpose the matrix 456 TRANSPOSE8X8 457 458 ; Then transform columns 459 IDCT8x8_1D 460 461 ; ROUND_POWER_OF_TWO(temp_out[j], 5) 462 vrshr.s16 q8, q8, #5 463 vrshr.s16 q9, q9, #5 464 vrshr.s16 q10, q10, #5 465 vrshr.s16 q11, q11, #5 466 vrshr.s16 q12, q12, #5 467 vrshr.s16 q13, q13, #5 468 vrshr.s16 q14, q14, #5 469 vrshr.s16 q15, q15, #5 470 471 ; save dest pointer 472 mov r0, r1 473 474 ; load destination data 475 vld1.64 {d0}, [r1], r2 476 vld1.64 {d1}, [r1], r2 477 vld1.64 {d2}, [r1], r2 478 vld1.64 {d3}, [r1], r2 479 vld1.64 {d4}, [r1], r2 480 vld1.64 {d5}, [r1], r2 481 vld1.64 {d6}, [r1], r2 482 vld1.64 {d7}, [r1] 483 484 ; ROUND_POWER_OF_TWO(temp_out[j], 5) + dest[j * dest_stride + i] 485 vaddw.u8 q8, q8, d0 486 vaddw.u8 q9, q9, d1 487 vaddw.u8 q10, q10, d2 488 vaddw.u8 q11, q11, d3 489 vaddw.u8 q12, q12, d4 490 vaddw.u8 q13, q13, d5 491 vaddw.u8 q14, q14, d6 492 vaddw.u8 q15, q15, d7 493 494 ; clip_pixel 495 vqmovun.s16 d0, q8 496 vqmovun.s16 d1, q9 497 vqmovun.s16 d2, q10 498 vqmovun.s16 d3, q11 499 vqmovun.s16 d4, q12 500 vqmovun.s16 d5, q13 501 vqmovun.s16 d6, q14 502 vqmovun.s16 d7, q15 503 504 ; store the data 505 vst1.64 {d0}, [r0], r2 506 vst1.64 {d1}, [r0], r2 507 vst1.64 {d2}, [r0], r2 508 vst1.64 {d3}, [r0], r2 509 vst1.64 {d4}, [r0], r2 510 vst1.64 {d5}, [r0], r2 511 vst1.64 {d6}, [r0], r2 512 vst1.64 {d7}, [r0], r2 513 514 vpop {d8-d15} 515 pop {r4-r9} 516 bx lr 517 ENDP ; |vp9_idct8x8_10_add_neon| 518 519 END 520