1; RUN: llc -march=hexagon -mcpu=hexagonv5 < %s | FileCheck %s
2
3; Check that store is post-incremented.
4; CHECK: r{{[0-9]+:[0-9]+}} = vasrw(r{{[0-9]+:[0-9]+}},r{{[0-9]+}})
5; CHECK: r{{[0-9]+:[0-9]+}} = vaslw(r{{[0-9]+:[0-9]+}},r{{[0-9]+}})
6target datalayout = "e-p:32:32:32-i64:64:64-i32:32:32-i16:16:16-i1:32:32-f64:64:64-f32:32:32-v64:64:64-v32:32:32-a0:0-n16:32"
7target triple = "hexagon"
8
9define void @foo(i32* nocapture %buf, i32* nocapture %dest, i32 %offset, i32 %oddBlock, i32 %gb) #0 {
10entry:
11  %0 = load i32, i32* %buf, align 4, !tbaa !0
12  %shr = ashr i32 %0, %gb
13  store i32 %shr, i32* %buf, align 4, !tbaa !0
14  %not.tobool = icmp eq i32 %oddBlock, 0
15  %1 = sub i32 %offset, %oddBlock
16  %2 = zext i1 %not.tobool to i32
17  %3 = and i32 %1, 7
18  %4 = add i32 %2, %3
19  %5 = add i32 %4, 8
20  %p_sub8 = sub nsw i32 31, %gb
21  %6 = insertelement <2 x i32> undef, i32 %p_sub8, i32 0
22  %7 = insertelement <2 x i32> %6, i32 %p_sub8, i32 1
23  %8 = bitcast <2 x i32> %7 to i64
24  %9 = tail call i64 @llvm.hexagon.S2.asl.i.vw(i64 %8, i32 1)
25  %10 = bitcast i64 %9 to <2 x i32>
26  %11 = tail call i64 @llvm.hexagon.A2.combinew(i32 -1, i32 -1)
27  %12 = bitcast i64 %11 to <2 x i32>
28  %sub12p_vec = add <2 x i32> %10, %12
29  %p_22 = add i32 %4, 64
30  %p_d.018 = getelementptr i32, i32* %dest, i32 %4
31  %p_d.01823 = getelementptr i32, i32* %dest, i32 %p_22
32  %p_25 = add i32 %4, 72
33  %p_arrayidx14 = getelementptr i32, i32* %dest, i32 %5
34  %p_arrayidx1426 = getelementptr i32, i32* %dest, i32 %p_25
35  %_p_scalar_ = load i32, i32* %p_d.018, align 4
36  %_p_vec_ = insertelement <2 x i32> undef, i32 %_p_scalar_, i32 0
37  %_p_scalar_27 = load i32, i32* %p_d.01823, align 4
38  %_p_vec_28 = insertelement <2 x i32> %_p_vec_, i32 %_p_scalar_27, i32 1
39  %13 = bitcast <2 x i32> %_p_vec_28 to i64
40  %14 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %13, i32 31)
41  %15 = bitcast i64 %14 to <2 x i32>
42  %shr9p_vec = ashr <2 x i32> %_p_vec_28, %7
43  %xorp_vec = xor <2 x i32> %15, %sub12p_vec
44  %16 = bitcast <2 x i32> %shr9p_vec to i64
45  %17 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %14, i64 %16)
46  %18 = bitcast <2 x i32> %xorp_vec to i64
47  %19 = tail call i64 @llvm.hexagon.C2.vmux(i32 %17, i64 %13, i64 %18)
48  %20 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %19, i32 %gb)
49  %21 = bitcast i64 %20 to <2 x i32>
50  %22 = extractelement <2 x i32> %21, i32 0
51  store i32 %22, i32* %p_arrayidx14, align 4
52  %23 = extractelement <2 x i32> %21, i32 1
53  store i32 %23, i32* %p_arrayidx1426, align 4
54  store i32 %22, i32* %p_d.018, align 4
55  store i32 %23, i32* %p_d.01823, align 4
56  %p_21.1 = add i32 %4, 128
57  %p_22.1 = add i32 %4, 192
58  %p_d.018.1 = getelementptr i32, i32* %dest, i32 %p_21.1
59  %p_d.01823.1 = getelementptr i32, i32* %dest, i32 %p_22.1
60  %p_24.1 = add i32 %4, 136
61  %p_25.1 = add i32 %4, 200
62  %p_arrayidx14.1 = getelementptr i32, i32* %dest, i32 %p_24.1
63  %p_arrayidx1426.1 = getelementptr i32, i32* %dest, i32 %p_25.1
64  %_p_scalar_.1 = load i32, i32* %p_d.018.1, align 4
65  %_p_vec_.1 = insertelement <2 x i32> undef, i32 %_p_scalar_.1, i32 0
66  %_p_scalar_27.1 = load i32, i32* %p_d.01823.1, align 4
67  %_p_vec_28.1 = insertelement <2 x i32> %_p_vec_.1, i32 %_p_scalar_27.1, i32 1
68  %24 = bitcast <2 x i32> %_p_vec_28.1 to i64
69  %25 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %24, i32 31)
70  %26 = bitcast i64 %25 to <2 x i32>
71  %shr9p_vec.1 = ashr <2 x i32> %_p_vec_28.1, %7
72  %xorp_vec.1 = xor <2 x i32> %26, %sub12p_vec
73  %27 = bitcast <2 x i32> %shr9p_vec.1 to i64
74  %28 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %25, i64 %27)
75  %29 = bitcast <2 x i32> %xorp_vec.1 to i64
76  %30 = tail call i64 @llvm.hexagon.C2.vmux(i32 %28, i64 %24, i64 %29)
77  %31 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %30, i32 %gb)
78  %32 = bitcast i64 %31 to <2 x i32>
79  %33 = extractelement <2 x i32> %32, i32 0
80  store i32 %33, i32* %p_arrayidx14.1, align 4
81  %34 = extractelement <2 x i32> %32, i32 1
82  store i32 %34, i32* %p_arrayidx1426.1, align 4
83  store i32 %33, i32* %p_d.018.1, align 4
84  store i32 %34, i32* %p_d.01823.1, align 4
85  %p_21.2 = add i32 %4, 256
86  %p_22.2 = add i32 %4, 320
87  %p_d.018.2 = getelementptr i32, i32* %dest, i32 %p_21.2
88  %p_d.01823.2 = getelementptr i32, i32* %dest, i32 %p_22.2
89  %p_24.2 = add i32 %4, 264
90  %p_25.2 = add i32 %4, 328
91  %p_arrayidx14.2 = getelementptr i32, i32* %dest, i32 %p_24.2
92  %p_arrayidx1426.2 = getelementptr i32, i32* %dest, i32 %p_25.2
93  %_p_scalar_.2 = load i32, i32* %p_d.018.2, align 4
94  %_p_vec_.2 = insertelement <2 x i32> undef, i32 %_p_scalar_.2, i32 0
95  %_p_scalar_27.2 = load i32, i32* %p_d.01823.2, align 4
96  %_p_vec_28.2 = insertelement <2 x i32> %_p_vec_.2, i32 %_p_scalar_27.2, i32 1
97  %35 = bitcast <2 x i32> %_p_vec_28.2 to i64
98  %36 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %35, i32 31)
99  %37 = bitcast i64 %36 to <2 x i32>
100  %shr9p_vec.2 = ashr <2 x i32> %_p_vec_28.2, %7
101  %xorp_vec.2 = xor <2 x i32> %37, %sub12p_vec
102  %38 = bitcast <2 x i32> %shr9p_vec.2 to i64
103  %39 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %36, i64 %38)
104  %40 = bitcast <2 x i32> %xorp_vec.2 to i64
105  %41 = tail call i64 @llvm.hexagon.C2.vmux(i32 %39, i64 %35, i64 %40)
106  %42 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %41, i32 %gb)
107  %43 = bitcast i64 %42 to <2 x i32>
108  %44 = extractelement <2 x i32> %43, i32 0
109  store i32 %44, i32* %p_arrayidx14.2, align 4
110  %45 = extractelement <2 x i32> %43, i32 1
111  store i32 %45, i32* %p_arrayidx1426.2, align 4
112  store i32 %44, i32* %p_d.018.2, align 4
113  store i32 %45, i32* %p_d.01823.2, align 4
114  %p_21.3 = add i32 %4, 384
115  %p_22.3 = add i32 %4, 448
116  %p_d.018.3 = getelementptr i32, i32* %dest, i32 %p_21.3
117  %p_d.01823.3 = getelementptr i32, i32* %dest, i32 %p_22.3
118  %p_24.3 = add i32 %4, 392
119  %p_25.3 = add i32 %4, 456
120  %p_arrayidx14.3 = getelementptr i32, i32* %dest, i32 %p_24.3
121  %p_arrayidx1426.3 = getelementptr i32, i32* %dest, i32 %p_25.3
122  %_p_scalar_.3 = load i32, i32* %p_d.018.3, align 4
123  %_p_vec_.3 = insertelement <2 x i32> undef, i32 %_p_scalar_.3, i32 0
124  %_p_scalar_27.3 = load i32, i32* %p_d.01823.3, align 4
125  %_p_vec_28.3 = insertelement <2 x i32> %_p_vec_.3, i32 %_p_scalar_27.3, i32 1
126  %46 = bitcast <2 x i32> %_p_vec_28.3 to i64
127  %47 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %46, i32 31)
128  %48 = bitcast i64 %47 to <2 x i32>
129  %shr9p_vec.3 = ashr <2 x i32> %_p_vec_28.3, %7
130  %xorp_vec.3 = xor <2 x i32> %48, %sub12p_vec
131  %49 = bitcast <2 x i32> %shr9p_vec.3 to i64
132  %50 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %47, i64 %49)
133  %51 = bitcast <2 x i32> %xorp_vec.3 to i64
134  %52 = tail call i64 @llvm.hexagon.C2.vmux(i32 %50, i64 %46, i64 %51)
135  %53 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %52, i32 %gb)
136  %54 = bitcast i64 %53 to <2 x i32>
137  %55 = extractelement <2 x i32> %54, i32 0
138  store i32 %55, i32* %p_arrayidx14.3, align 4
139  %56 = extractelement <2 x i32> %54, i32 1
140  store i32 %56, i32* %p_arrayidx1426.3, align 4
141  store i32 %55, i32* %p_d.018.3, align 4
142  store i32 %56, i32* %p_d.01823.3, align 4
143  %p_21.4 = add i32 %4, 512
144  %p_22.4 = add i32 %4, 576
145  %p_d.018.4 = getelementptr i32, i32* %dest, i32 %p_21.4
146  %p_d.01823.4 = getelementptr i32, i32* %dest, i32 %p_22.4
147  %p_24.4 = add i32 %4, 520
148  %p_25.4 = add i32 %4, 584
149  %p_arrayidx14.4 = getelementptr i32, i32* %dest, i32 %p_24.4
150  %p_arrayidx1426.4 = getelementptr i32, i32* %dest, i32 %p_25.4
151  %_p_scalar_.4 = load i32, i32* %p_d.018.4, align 4
152  %_p_vec_.4 = insertelement <2 x i32> undef, i32 %_p_scalar_.4, i32 0
153  %_p_scalar_27.4 = load i32, i32* %p_d.01823.4, align 4
154  %_p_vec_28.4 = insertelement <2 x i32> %_p_vec_.4, i32 %_p_scalar_27.4, i32 1
155  %57 = bitcast <2 x i32> %_p_vec_28.4 to i64
156  %58 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %57, i32 31)
157  %59 = bitcast i64 %58 to <2 x i32>
158  %shr9p_vec.4 = ashr <2 x i32> %_p_vec_28.4, %7
159  %xorp_vec.4 = xor <2 x i32> %59, %sub12p_vec
160  %60 = bitcast <2 x i32> %shr9p_vec.4 to i64
161  %61 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %58, i64 %60)
162  %62 = bitcast <2 x i32> %xorp_vec.4 to i64
163  %63 = tail call i64 @llvm.hexagon.C2.vmux(i32 %61, i64 %57, i64 %62)
164  %64 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %63, i32 %gb)
165  %65 = bitcast i64 %64 to <2 x i32>
166  %66 = extractelement <2 x i32> %65, i32 0
167  store i32 %66, i32* %p_arrayidx14.4, align 4
168  %67 = extractelement <2 x i32> %65, i32 1
169  store i32 %67, i32* %p_arrayidx1426.4, align 4
170  store i32 %66, i32* %p_d.018.4, align 4
171  store i32 %67, i32* %p_d.01823.4, align 4
172  %p_21.5 = add i32 %4, 640
173  %p_22.5 = add i32 %4, 704
174  %p_d.018.5 = getelementptr i32, i32* %dest, i32 %p_21.5
175  %p_d.01823.5 = getelementptr i32, i32* %dest, i32 %p_22.5
176  %p_24.5 = add i32 %4, 648
177  %p_25.5 = add i32 %4, 712
178  %p_arrayidx14.5 = getelementptr i32, i32* %dest, i32 %p_24.5
179  %p_arrayidx1426.5 = getelementptr i32, i32* %dest, i32 %p_25.5
180  %_p_scalar_.5 = load i32, i32* %p_d.018.5, align 4
181  %_p_vec_.5 = insertelement <2 x i32> undef, i32 %_p_scalar_.5, i32 0
182  %_p_scalar_27.5 = load i32, i32* %p_d.01823.5, align 4
183  %_p_vec_28.5 = insertelement <2 x i32> %_p_vec_.5, i32 %_p_scalar_27.5, i32 1
184  %68 = bitcast <2 x i32> %_p_vec_28.5 to i64
185  %69 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %68, i32 31)
186  %70 = bitcast i64 %69 to <2 x i32>
187  %shr9p_vec.5 = ashr <2 x i32> %_p_vec_28.5, %7
188  %xorp_vec.5 = xor <2 x i32> %70, %sub12p_vec
189  %71 = bitcast <2 x i32> %shr9p_vec.5 to i64
190  %72 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %69, i64 %71)
191  %73 = bitcast <2 x i32> %xorp_vec.5 to i64
192  %74 = tail call i64 @llvm.hexagon.C2.vmux(i32 %72, i64 %68, i64 %73)
193  %75 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %74, i32 %gb)
194  %76 = bitcast i64 %75 to <2 x i32>
195  %77 = extractelement <2 x i32> %76, i32 0
196  store i32 %77, i32* %p_arrayidx14.5, align 4
197  %78 = extractelement <2 x i32> %76, i32 1
198  store i32 %78, i32* %p_arrayidx1426.5, align 4
199  store i32 %77, i32* %p_d.018.5, align 4
200  store i32 %78, i32* %p_d.01823.5, align 4
201  %p_21.6 = add i32 %4, 768
202  %p_22.6 = add i32 %4, 832
203  %p_d.018.6 = getelementptr i32, i32* %dest, i32 %p_21.6
204  %p_d.01823.6 = getelementptr i32, i32* %dest, i32 %p_22.6
205  %p_24.6 = add i32 %4, 776
206  %p_25.6 = add i32 %4, 840
207  %p_arrayidx14.6 = getelementptr i32, i32* %dest, i32 %p_24.6
208  %p_arrayidx1426.6 = getelementptr i32, i32* %dest, i32 %p_25.6
209  %_p_scalar_.6 = load i32, i32* %p_d.018.6, align 4
210  %_p_vec_.6 = insertelement <2 x i32> undef, i32 %_p_scalar_.6, i32 0
211  %_p_scalar_27.6 = load i32, i32* %p_d.01823.6, align 4
212  %_p_vec_28.6 = insertelement <2 x i32> %_p_vec_.6, i32 %_p_scalar_27.6, i32 1
213  %79 = bitcast <2 x i32> %_p_vec_28.6 to i64
214  %80 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %79, i32 31)
215  %81 = bitcast i64 %80 to <2 x i32>
216  %shr9p_vec.6 = ashr <2 x i32> %_p_vec_28.6, %7
217  %xorp_vec.6 = xor <2 x i32> %81, %sub12p_vec
218  %82 = bitcast <2 x i32> %shr9p_vec.6 to i64
219  %83 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %80, i64 %82)
220  %84 = bitcast <2 x i32> %xorp_vec.6 to i64
221  %85 = tail call i64 @llvm.hexagon.C2.vmux(i32 %83, i64 %79, i64 %84)
222  %86 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %85, i32 %gb)
223  %87 = bitcast i64 %86 to <2 x i32>
224  %88 = extractelement <2 x i32> %87, i32 0
225  store i32 %88, i32* %p_arrayidx14.6, align 4
226  %89 = extractelement <2 x i32> %87, i32 1
227  store i32 %89, i32* %p_arrayidx1426.6, align 4
228  store i32 %88, i32* %p_d.018.6, align 4
229  store i32 %89, i32* %p_d.01823.6, align 4
230  %p_21.7 = add i32 %4, 896
231  %p_22.7 = add i32 %4, 960
232  %p_d.018.7 = getelementptr i32, i32* %dest, i32 %p_21.7
233  %p_d.01823.7 = getelementptr i32, i32* %dest, i32 %p_22.7
234  %p_24.7 = add i32 %4, 904
235  %p_25.7 = add i32 %4, 968
236  %p_arrayidx14.7 = getelementptr i32, i32* %dest, i32 %p_24.7
237  %p_arrayidx1426.7 = getelementptr i32, i32* %dest, i32 %p_25.7
238  %_p_scalar_.7 = load i32, i32* %p_d.018.7, align 4
239  %_p_vec_.7 = insertelement <2 x i32> undef, i32 %_p_scalar_.7, i32 0
240  %_p_scalar_27.7 = load i32, i32* %p_d.01823.7, align 4
241  %_p_vec_28.7 = insertelement <2 x i32> %_p_vec_.7, i32 %_p_scalar_27.7, i32 1
242  %90 = bitcast <2 x i32> %_p_vec_28.7 to i64
243  %91 = tail call i64 @llvm.hexagon.S2.asr.i.vw(i64 %90, i32 31)
244  %92 = bitcast i64 %91 to <2 x i32>
245  %shr9p_vec.7 = ashr <2 x i32> %_p_vec_28.7, %7
246  %xorp_vec.7 = xor <2 x i32> %92, %sub12p_vec
247  %93 = bitcast <2 x i32> %shr9p_vec.7 to i64
248  %94 = tail call i32 @llvm.hexagon.A2.vcmpweq(i64 %91, i64 %93)
249  %95 = bitcast <2 x i32> %xorp_vec.7 to i64
250  %96 = tail call i64 @llvm.hexagon.C2.vmux(i32 %94, i64 %90, i64 %95)
251  %97 = tail call i64 @llvm.hexagon.S2.asl.r.vw(i64 %96, i32 %gb)
252  %98 = bitcast i64 %97 to <2 x i32>
253  %99 = extractelement <2 x i32> %98, i32 0
254  store i32 %99, i32* %p_arrayidx14.7, align 4
255  %100 = extractelement <2 x i32> %98, i32 1
256  store i32 %100, i32* %p_arrayidx1426.7, align 4
257  store i32 %99, i32* %p_d.018.7, align 4
258  store i32 %100, i32* %p_d.01823.7, align 4
259  ret void
260}
261
262declare i64 @llvm.hexagon.S2.asr.i.vw(i64, i32) #1
263
264declare i64 @llvm.hexagon.S2.asl.i.vw(i64, i32) #1
265
266declare i64 @llvm.hexagon.A2.combinew(i32, i32) #1
267
268declare i32 @llvm.hexagon.A2.vcmpweq(i64, i64) #1
269
270declare i64 @llvm.hexagon.C2.vmux(i32, i64, i64) #1
271
272declare i64 @llvm.hexagon.S2.asl.r.vw(i64, i32) #1
273
274attributes #0 = { nounwind "less-precise-fpmad"="false" "frame-pointer"="non-leaf" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "unsafe-fp-math"="false" "use-soft-float"="false" }
275attributes #1 = { nounwind readnone }
276
277!0 = !{!"int", !1}
278!1 = !{!"omnipotent char", !2}
279!2 = !{!"Simple C/C++ TBAA"}
280